CN111738298A - 一种基于深宽可变多核学习的数据分类方法 - Google Patents
一种基于深宽可变多核学习的数据分类方法 Download PDFInfo
- Publication number
- CN111738298A CN111738298A CN202010461049.2A CN202010461049A CN111738298A CN 111738298 A CN111738298 A CN 111738298A CN 202010461049 A CN202010461049 A CN 202010461049A CN 111738298 A CN111738298 A CN 111738298A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- dws
- mkl
- kernel
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 77
- 238000012706 support-vector machine Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 30
- 238000013135 deep learning Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深宽可变多核学习的数据分类方法。步骤1:数据集的准备;步骤2:数据集分类的算法结构;步骤3:将步骤2的DWS‑MKL算法使用SVM作为分类器进行数据第一次分类;步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习;步骤6:利用上述步骤进行数据训练;步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。本发明充分发挥核方法的非线性映射能力,根据数据灵活改变结构并使用leave‑one‑out误差界优化参数,提高了方法的分类准确率。
Description
技术领域
本发明涉及数据分类领域,尤其涉及一种基于深宽可变多核学习的数据分类方法。
背景技术
深度学习作为一种新兴的机器学习技术,由于其优异的性能被广泛应用到众多领域, 如图像处理,自然语言处理,推荐系统等。然而,深度学习算法能力的提升通常需要大量 的数据驱动,在数据获取困难或数据缺失的情况下,深度学习能力受限,泛化性差。相比之下,核方法对小数据集的非线性分类效果显著。而且,核方法在低维空间解决高维空间的线性求解问题可以有效的避免“维数灾难”。
按照核函数的选择方式,核方法包括单核学习和多核学习。单核学习方法具体包括支 持向量机,核主成分分析,核Fisher判别分析等。单核学习基于单一特征空间,对于异构 数据表达能力有限,核函数的选择也是一个关键问题,单核学习不适合于处理复杂数据和 复杂应用问题。多核学习组合了多个单核的特征能力获得组合特征空间,使数据的不同特 征分量在高维组合空间得到充分表达,相比于单核学习灵活性更强且具有更好的数据分类 能力。组合系数的求解是多核学习的研究重点。传统上将参数优化问题转化为序列最小化 优化(sequential minimization optimization,简称SMO,半正定规划(semi-definite programming,简称SDP)以及半无限线性规划(semi-infinite linearprogramming,简称 SILP)问题求解。这种优化方式计算复杂度高,十分耗时。另外,多核学习是一种浅层 结构,简单的线性组合或凸组合会丢失数据中有用的特征信息,使方法的分类能力受限。
深度多核学习方法将深度学习层次化级联的思想引入到多核学习,将多核学习的浅层 结构扩展成更复杂的结构,深入挖掘数据的内在特征。通过设计算法的层次化结构,使算 法称为能够组合更多的核函数的网络,提升算法的特征提取能力。现有的深度多核学习算 法大多是直接堆叠多层,忽略了数据在每一层的多样化特征的合理组合,例如,颜色、纹 理、形状等。此外,深度多核学习一旦设计好结构,对所有的数据均采用这一固定结构处理。然而,针对现实中多样的数据,特征提取过度或不足会造成分类结果反而降低,方法 应该具备针对数据选择结构并提取特征的能力。
发明内容
本发明提供一种基于深宽可变多核学习的数据分类方法,针对传统多核学习算法特征 提取能力有限,深度多核学习算法结构固定,限制算法的泛化能力的问题,本发明充分发 挥核方法的非线性映射能力,根据数据灵活改变结构并使用leave-one-out误差界优化参 数,提高了方法的分类准确率。
本发明通过以下技术方案实现:
一种基于深宽可变多核学习的数据分类方法,所述学习方法包括以下步骤:
步骤1:数据集的准备,数据集中随机划分出50%的样本作为训练集用于训练模型参 数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之 前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M 类样本的数据标签为0~M;
步骤2:将数据集分类的算法结构为,DWS-MKL算法通过融合MKL与深度学习的 层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽 度W,给定一组训练集样本D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi∈Rn, yi∈{-1,1},i=1,2,...,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数, 则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,SVM 分类器的输入为组合核Kf输出的特征;
步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习,DWS-MKL通过求 解泛化误差的近似无偏估计建立留一误差上界求解核参数,使用一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计;
步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分 类能力的SVM分类模型和算法深宽可变架构组合系数。
步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。
进一步的,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,当输入向量为xi时,组合核的基本定义为,
s.t.θi≥0,
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即 k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(φ(L-1)(...φ(1)(x)))·φ(L)(φ(L-1)(...φ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计 的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
步骤2.3:深层多通道多核学习架构,除了级联多层组合核,DWS-MKL算法扩展多个深层结构到多个通道,通道之间相互独立,互不连接。最后,各个通道的特征输出按照 求和平均规则输入到一个组合核Kf:
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合 核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。
进一步的,所述步骤3的一个SVM分类器的决策函数为:
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
s.t.yi(αik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,...,m
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL 算法的决策函数统一写为:
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中 基核函数对应的决策函数如下:
进一步的,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
使用矩阵表达简写为:
进一步的,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次与i-1次之间变化小于e-4或者算法迭代运行100 次时,算法参数停止更新;参数更新公式如下:
进一步的,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为 D∈[1,2,3],W∈[1,2,3]。
本发明的有益效果是:
1.本发明的DWS-MKL算法提升精度的同时其模型复杂度较低。
2.本发明的针对不同规模的数据集,确定模型结构的复杂程度更符合实际应用的需 求。
3.本发明的DWS-MKL算法使用求解误差上界的方式确定结构的组合参数和分类器参数,提高算法的泛化能力,更松的界可以使算法提取到的特征更丰富,提高分类精度。
附图说明
图1本发明的结构示意图。
图2本发明的DWS-MKL算法总体架构示意图。
图3本发明的SVM分类器示意图。
图4本发明的数据集可视化,图4-(a)数据集2-D样本可视化,图4-(b)数据集 3-D样本可视化。
图5本发明的MNIST数据集分类结果,图5-(a)MNIST数据集的平均准确率±标 准差,图5-(b)MNIST数据集的混淆矩阵。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
实施例1
一种基于深宽可变多核学习的数据分类方法,所述学习方法包括以下步骤:
步骤1:数据集的准备,数据集中随机划分出50%的样本作为训练集用于训练模型参 数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之 前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M 类样本的数据标签为0~M;
步骤2:将数据集分类的算法结构为,DWS-MKL算法通过融合MKL与深度学习的 层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽 度W,给定一组训练集样本D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi∈Rn, yi∈{-1,1},i=1,2,...,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数, 则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,解 决基本的数据分类问题,SVM分类器的输入为组合核Kf输出的特征;分类器具体架构如 图3所示;
步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习,DWS-MKL通过求 解泛化误差的近似无偏估计建立留一误差(leave-one-outerror)上界求解核参数,使用 一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计; 更松的上界可以提高提取特征的丰富性,提升算法的泛化能力;
步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分 类能力的SVM分类模型和算法深宽可变架构组合系数。
步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。
进一步的,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,其一般框架如图1所示,当输入向量为xi时,组合核的基本定义为,
s.t.θi≥0,
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
组合核的基核函数有很多选择,例如:线性核函数、多项式核函数、RBF核函数、Laplace核函数以及sigmoid核函数等。DWS-MKL算法的基核函数可以根据具体实际应 用选择多种核函数进行组合。本发明DWS-MKL算法在实例测试中,选择了三种核函数 作为每个组合核的基核函数,分别为线性核、多项式核和RBF核;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即 k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(φ(L-1)(...φ(1)(x)))·φ(L)(φ(L-1)(...φ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计 的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
步骤2.3:深层多通道多核学习架构,除了级联多层组合核,DWS-MKL算法扩展多个深层结构到多个通道,通道之间相互独立,互不连接。最后,各个通道的特征输出按照 求和平均规则输入到一个组合核Kf:
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合 核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
通过以上描述,DWS-MKL算法深宽可变组合结构的总体架构如图2所示;
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。针对同一数据集,不同深宽组合架构下的DWS-MKL算法分类准确 率不同;针对不同规模的数据集,若深宽组合结构固定,并不能使所有数据集下的分类 准确率都最高。因此,根据待解决问题的复杂性确定模型的复杂性是有必要且合理的; 根据数据集灵活的调整算法的结构,这是DWS-MKL算法的主要特点;
将架构的深度和宽度的范围限制为D∈[1,2,3],W∈[1,2,3]。因此,可以获得九组不同 的深宽组合结构包括:1×1、1×2、1×3、2×1、2×2、2×3、3×1、3×2和3×3。在不同的数据集下,DWS-MKL算法选择哪种深宽组合结构由算法学习确定。将架构的深度D和 宽度W作为需要学习的参数,参与算法训练。使用网格搜索算法对不同的组合结构进行 迭代训练,并在训练过程中使用5折交叉验证选择使分类结果最优的深度和宽度参数。
进一步的,所述步骤3的一个SVM分类器的决策函数为:
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
s.t.yi(αik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,...,m
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL 算法的决策函数统一写为:
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中 基核函数对应的决策函数如下:
进一步的,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
使用矩阵表达简写为:
进一步的,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次与i-1次之间变化小于e-4或者算法迭代运行100 次时,算法参数停止更新;所得的模型即为用于测试的最优模型;参数更新公式如下:
进一步的,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为 D∈[1,2,3],W∈[1,2,3]。
若数据集的规模较小,使用过度设计的复杂结构会造成算法过拟合;若数据集复杂庞 大,使用简单的结构无法充分提取数据特征,造成欠拟合。DWS-MKL算法在使用过程中,针对具体数据集确定组合结构的深度和宽度大小能有效提高算法的精度,也更符合应用的要求
实施例2
使用本方法对UCI数据集中的24组子数据集进行分类。将每组数据集按照1:1的比例划分成训练集和测试集。每一层每个通道的组合核由四个基核函数组成,包括线性核、RBF核以及多项式核(包含2阶多项式和3阶多项式,自由参数为α=1和β=1)。分类 器选定为SVM标准分类器。模型训练中,算法迭代次数设置为100。学习率为lr=1E-5。 SVM的惩罚系数设置为C∈[10-1,10,102],最终通过5折交叉验证确定。使用MATLAB 实现算法,SVM分类器使用开源LIBSVM工具实现。对于多分类任务,算法使用 “one-vs-all”策略训练分类器。使用训练获得的模型在测试集上进行分类效果验证。针对不 同的数据使用不同深度和宽度的9种组合结构,算法的分类准确率如表1所示。括号内数 字代表指定的深宽组合结构下对测试集分类准确率的排序。数字越小代表该结构下的算法 性能越好。表格最后一行为不同宽度的分类准确率平均排序。针对不同数据,分类准确率 最高的深宽组合架构并不相同,说明根据数据调整算法结构是必要的。
表1高阶基核函数公式
表2基核函数对应的SVM分类决策函数
表3不同深宽组合结构下的分类准确率(%)
在表3中,将每一组数据中分类准确率最高的结果加粗以便于观察和分析。从表中可 以看出,并不是所有最深最宽的结构分类结果都最好,例如Liver(1×2)、Mass(2×1)等。不同深宽组合结构的分类准确率排名如表4所示。当宽度为1和2时,算法分类准确 率随着深度增加而提升;当宽度为3时,随着深度增加,算法分类准确率反而下降。同理, 当深度为1时,算法分类准确率随着宽度增加而提升;当深度为2和3时,随着宽度增加, 算法分类准确率先提升后下降。这是一种由于引入深度网络造成的“退化”现象。因此,针 对不同的数据集,自适应调整算法的深宽组合结构能够更好的提取特征,有利于提高分类 性能。
表4不同深宽组合结构的分类准确率平均排名
(D,W) | 1 | 2 | 3 |
1 | 5.17 | 3.88 | 3.58 |
2 | 4.04 | 3.83 | 4.16 |
3 | 3.58 | 3.13 | 4.96 |
实施例3
使用本发明所提出的算法DWS-MKL用于大规模MNIST手写数字识别。MNIST数 据集包含0~9的手写数字,样本均为28×28的灰度图。MNIST训练集包含50,000样本, 测试集包含10,000样本。为便于观察,随机选取500样本使用T-SNE算法将数据降维为 2-D和3-D如图4所示。从图中可以看出,MNIST数据集的各个类别之间线性不可分。 本实例可以证明DWS-MKL算法可以处理高维线性不可分的数据。
实验实现方法及超参数设置与实例一中一致,从MNIST训练集和测试集中分别随机 抽取5000样本作为实验数据。重复运行10组分类实验,并计算平均准确率和标准差如图5所示。当算法为1×2深宽组合结构时,分类准确率最高为84.2%。标准差波动范围为2.5~2.8。其中一组实验结果的混淆矩阵如图5所示,矩阵中元素表示指定类别的数量。 图中横轴为预测类别,纵轴为实际类别。预测结果大多数集中在矩阵的对角线上,表明分 类较准确,算法对分类有效。因此,本发明的DWS-MKL算法能够处理高维非线性数据。
Claims (6)
1.一种基于深宽可变多核学习的数据分类方法,其特征在于,所述学习方法包括以下步骤:
步骤1:数据集的准备,数据集中随机划分出50%的样本作为训练集用于训练模型参数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M类样本的数据标签为0~M;
步骤2:数据集分类的算法结构,DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽度W,给定一组训练集样本D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi∈Rn,yi∈{-1,1},i=1,2,...,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数,则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,SVM分类器的输入为组合核Kf输出的特征;
步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习,DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差上界求解核参数,使用一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计;步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分类能力的SVM分类模型和算法深宽可变架构组合系数;
步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。
2.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,当输入向量为xi时,组合核的基本定义为,
s.t.θi≥0,
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(φ(L-1)(...φ(1)(x)))·φ(L)(φ(L-1)(...φ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
步骤2.3:深层多通道多核学习架构,除了级联多层组合核,DWS-MKL算法扩展多个深层结构到多个通道,通道之间相互独立,互不连接。最后,各个通道的特征输出按照求和平均规则输入到一个组合核Kf:
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。
3.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤3的一个SVM分类器的决策函数为:
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
s.t.yi(αik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,...,m
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL算法的决策函数统一写为:
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中基核函数对应的决策函数如下:
4.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
使用矩阵表达简写为:
6.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为D∈[1,2,3],W∈[1,2,3]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010461049.2A CN111738298B (zh) | 2020-05-27 | 2020-05-27 | 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010461049.2A CN111738298B (zh) | 2020-05-27 | 2020-05-27 | 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738298A true CN111738298A (zh) | 2020-10-02 |
CN111738298B CN111738298B (zh) | 2023-09-12 |
Family
ID=72647743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010461049.2A Active CN111738298B (zh) | 2020-05-27 | 2020-05-27 | 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738298B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232438A (zh) * | 2020-11-05 | 2021-01-15 | 华东理工大学 | 面向高维图像表示多核子空间学习框架 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150309A1 (en) * | 2007-12-10 | 2009-06-11 | Yahoo! Inc. | System and method for training a multi-class support vector machine to select a common subset of features for classifying objects |
CN101482926A (zh) * | 2009-02-19 | 2009-07-15 | 北京大学 | 一种可伸缩的自适应多核分类方法 |
CN102194135A (zh) * | 2010-03-08 | 2011-09-21 | 艾美特电器(深圳)有限公司 | 基于核自适应局部保持映射的图像分类方法和图像处理器 |
CN102314614A (zh) * | 2011-10-24 | 2012-01-11 | 北京大学 | 一种基于类共享多核学习的图像语义分类方法 |
CN103678681A (zh) * | 2013-12-25 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 基于大规模数据的自适应参数的多核学习分类方法 |
CN105654126A (zh) * | 2015-12-29 | 2016-06-08 | 华为技术有限公司 | 一种计算设备、核矩阵评估方法以及多核学习方法 |
CN105740885A (zh) * | 2016-01-25 | 2016-07-06 | 南京信息工程大学 | 基于多核鉴别线性表示的分类方法 |
CN106529484A (zh) * | 2016-11-16 | 2017-03-22 | 哈尔滨工业大学 | 基于类指定多核学习的光谱和激光雷达数据联合分类方法 |
CN109034186A (zh) * | 2018-06-11 | 2018-12-18 | 东北大学秦皇岛分校 | 建立da-rbm分类器模型的方法 |
CN110309871A (zh) * | 2019-06-27 | 2019-10-08 | 西北工业大学深圳研究院 | 一种基于随机重采样的半监督学习图像分类方法 |
WO2020081399A1 (en) * | 2018-10-15 | 2020-04-23 | Nam Sung Kim | Network-centric architecture and algorithms to accelerate distributed training of neural networks |
-
2020
- 2020-05-27 CN CN202010461049.2A patent/CN111738298B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090150309A1 (en) * | 2007-12-10 | 2009-06-11 | Yahoo! Inc. | System and method for training a multi-class support vector machine to select a common subset of features for classifying objects |
CN101482926A (zh) * | 2009-02-19 | 2009-07-15 | 北京大学 | 一种可伸缩的自适应多核分类方法 |
CN102194135A (zh) * | 2010-03-08 | 2011-09-21 | 艾美特电器(深圳)有限公司 | 基于核自适应局部保持映射的图像分类方法和图像处理器 |
CN102314614A (zh) * | 2011-10-24 | 2012-01-11 | 北京大学 | 一种基于类共享多核学习的图像语义分类方法 |
CN103678681A (zh) * | 2013-12-25 | 2014-03-26 | 中国科学院深圳先进技术研究院 | 基于大规模数据的自适应参数的多核学习分类方法 |
CN105654126A (zh) * | 2015-12-29 | 2016-06-08 | 华为技术有限公司 | 一种计算设备、核矩阵评估方法以及多核学习方法 |
CN105740885A (zh) * | 2016-01-25 | 2016-07-06 | 南京信息工程大学 | 基于多核鉴别线性表示的分类方法 |
CN106529484A (zh) * | 2016-11-16 | 2017-03-22 | 哈尔滨工业大学 | 基于类指定多核学习的光谱和激光雷达数据联合分类方法 |
CN109034186A (zh) * | 2018-06-11 | 2018-12-18 | 东北大学秦皇岛分校 | 建立da-rbm分类器模型的方法 |
WO2020081399A1 (en) * | 2018-10-15 | 2020-04-23 | Nam Sung Kim | Network-centric architecture and algorithms to accelerate distributed training of neural networks |
CN110309871A (zh) * | 2019-06-27 | 2019-10-08 | 西北工业大学深圳研究院 | 一种基于随机重采样的半监督学习图像分类方法 |
Non-Patent Citations (2)
Title |
---|
石慧姝: "多尺度核方法及在电子系统测试中的应用", 《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》 * |
石慧姝: "多尺度核方法及在电子系统测试中的应用", 《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》, 15 January 2019 (2019-01-15), pages 032 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232438A (zh) * | 2020-11-05 | 2021-01-15 | 华东理工大学 | 面向高维图像表示多核子空间学习框架 |
CN112232438B (zh) * | 2020-11-05 | 2023-09-01 | 华东理工大学 | 面向高维图像表示多核子空间学习框架 |
Also Published As
Publication number | Publication date |
---|---|
CN111738298B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Good subnetworks provably exist: Pruning via greedy forward selection | |
Wang et al. | Deep CNNs meet global covariance pooling: Better representation and generalization | |
JP2023523029A (ja) | 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体 | |
Badrinarayanan et al. | Understanding symmetries in deep networks | |
CN109190511B (zh) | 基于局部与结构约束低秩表示的高光谱分类方法 | |
CN112733659A (zh) | 一种基于自步学习双流多尺度密集连接网络的高光谱图像分类方法 | |
Jiang et al. | Multi-learner based deep meta-learning for few-shot medical image classification | |
Zhang et al. | Generalized nonconvex nonsmooth low-rank matrix recovery framework with feasible algorithm designs and convergence analysis | |
CN111401413A (zh) | 一种基于优化理论的带规模约束的并行聚类方法 | |
Wang et al. | Projected fuzzy C-means with probabilistic neighbors | |
Qing et al. | Regularized spectral clustering under the mixed membership stochastic block model | |
CN111738298A (zh) | 一种基于深宽可变多核学习的数据分类方法 | |
Kwasigroch et al. | Deep neural network architecture search using network morphism | |
CN111401405B (zh) | 一种多神经网络集成的图像分类方法及系统 | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
Thom et al. | Rapid exact signal scanning with deep convolutional neural networks | |
Wang et al. | An improved neural network with random weights using backtracking search algorithm | |
CN113408610B (zh) | 一种基于自适应矩阵迭代极限学习机的图像识别方法 | |
Sotiropoulos | Handling variable shaped & high resolution images for multi-class classification problem | |
CN115601578A (zh) | 基于自步学习与视图赋权的多视图聚类方法及系统 | |
CN114332542A (zh) | 一种基于sta-admm的极限学习机的图像分类方法 | |
Zhu et al. | Stochastic parallel block coordinate descent for large-scale saddle point problems | |
CN113707213A (zh) | 基于深度学习的蛋白质-配体结合位点预测方法 | |
Zhang et al. | Contraction of a quasi-Bayesian model with shrinkage priors in precision matrix estimation | |
CN109902762A (zh) | 基于1/2相似度偏离的数据预处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |