CN111738298A

CN111738298A - 一种基于深宽可变多核学习的数据分类方法

Info

Publication number: CN111738298A
Application number: CN202010461049.2A
Authority: CN
Inventors: 王婷婷; 何林; 李君宝; 刘劼; 苏华友; 赵菲
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-10-02
Anticipated expiration: 2040-05-27
Also published as: CN111738298B

Abstract

本发明公开了一种基于深宽可变多核学习的数据分类方法。步骤1：数据集的准备；步骤2：数据集分类的算法结构；步骤3：将步骤2的DWS‑MKL算法使用SVM作为分类器进行数据第一次分类；步骤4：将步骤3中将数据进行第一次分类后，进行核参数学习；步骤6：利用上述步骤进行数据训练；步骤7：使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。本发明充分发挥核方法的非线性映射能力，根据数据灵活改变结构并使用leave‑one‑out误差界优化参数，提高了方法的分类准确率。

Description

一种基于深宽可变多核学习的数据分类方法

技术领域

本发明涉及数据分类领域，尤其涉及一种基于深宽可变多核学习的数据分类方法。

背景技术

深度学习作为一种新兴的机器学习技术，由于其优异的性能被广泛应用到众多领域，如图像处理，自然语言处理，推荐系统等。然而，深度学习算法能力的提升通常需要大量的数据驱动，在数据获取困难或数据缺失的情况下，深度学习能力受限，泛化性差。相比之下，核方法对小数据集的非线性分类效果显著。而且，核方法在低维空间解决高维空间的线性求解问题可以有效的避免“维数灾难”。

按照核函数的选择方式，核方法包括单核学习和多核学习。单核学习方法具体包括支持向量机，核主成分分析，核Fisher判别分析等。单核学习基于单一特征空间，对于异构数据表达能力有限，核函数的选择也是一个关键问题，单核学习不适合于处理复杂数据和复杂应用问题。多核学习组合了多个单核的特征能力获得组合特征空间，使数据的不同特征分量在高维组合空间得到充分表达，相比于单核学习灵活性更强且具有更好的数据分类能力。组合系数的求解是多核学习的研究重点。传统上将参数优化问题转化为序列最小化优化(sequential minimization optimization，简称SMO,半正定规划(semi-definite programming，简称SDP)以及半无限线性规划(semi-infinite linearprogramming，简称 SILP)问题求解。这种优化方式计算复杂度高，十分耗时。另外，多核学习是一种浅层结构，简单的线性组合或凸组合会丢失数据中有用的特征信息，使方法的分类能力受限。

深度多核学习方法将深度学习层次化级联的思想引入到多核学习，将多核学习的浅层结构扩展成更复杂的结构，深入挖掘数据的内在特征。通过设计算法的层次化结构，使算法称为能够组合更多的核函数的网络，提升算法的特征提取能力。现有的深度多核学习算法大多是直接堆叠多层，忽略了数据在每一层的多样化特征的合理组合，例如，颜色、纹理、形状等。此外，深度多核学习一旦设计好结构，对所有的数据均采用这一固定结构处理。然而，针对现实中多样的数据，特征提取过度或不足会造成分类结果反而降低，方法应该具备针对数据选择结构并提取特征的能力。

发明内容

本发明提供一种基于深宽可变多核学习的数据分类方法，针对传统多核学习算法特征提取能力有限，深度多核学习算法结构固定，限制算法的泛化能力的问题，本发明充分发挥核方法的非线性映射能力，根据数据灵活改变结构并使用leave-one-out误差界优化参数，提高了方法的分类准确率。

本发明通过以下技术方案实现：

一种基于深宽可变多核学习的数据分类方法，所述学习方法包括以下步骤：

步骤1：数据集的准备，数据集中随机划分出50％的样本作为训练集用于训练模型参数，剩余50％的样本作为测试集用于验证算法性能，具有n个样本的数据集在输入算法之前整理为n×(m+1)维的向量，m为样本的特征数量，最后一维默认为标注信息，具有M 类样本的数据标签为0～M；

步骤2：将数据集分类的算法结构为，DWS-MKL算法通过融合MKL与深度学习的层次化级联思想，构造多层多通道组合的多核学习的统一架构，多层由组合核之间级联产生，各个通道之间相互独立，架构的层数表示为算法的深度D，通道数表示为算法的宽度W，给定一组训练集样本D＝{(x₁,y₁),(x₂,y₂),...,(x_m,y_m)}，其中x_i∈Rⁿ， y_i∈{-1,1},i＝1,2,...,m。φ(x)表示将输入x从Rⁿ空间映射到高维希尔伯特空间的映射函数，则核函数k(x_i,x_j)满足：

k(x_i,x_j)＝φ(x_i)φ(x_j)

因此，核矩阵K定义为：

步骤3：将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类，SVM 分类器的输入为组合核K_f输出的特征；

步骤4：将步骤3中将数据进行第一次分类后，进行核参数学习，DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差上界求解核参数，使用一个易于计算的量T_span来估计误差上界，T_span是根据支持向量张成空间导出的一个估计；

步骤5：将步骤4中的核参数学习进行求解；DWS-MKL算法使用梯度投影法求解满足最小化误差上界T_span的组合系数；

步骤6：利用上述步骤进行数据训练，手动设置超参数；之后，输入训练数据进行迭代训练，并使用交叉验证算法确定C和最优的深度D和宽度W；经过训练，获得具有分类能力的SVM分类模型和算法深宽可变架构组合系数。

步骤7：使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。

进一步的，所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想，构造多层多通道组合的多核学习的统一架构，多层由组合核之间级联产生，各个通道之间相互独立，包括以下步骤：

步骤2.1：深宽组合架构基本单元，DWS-MKL算法中每一层的组合核是多个核函数的线性组合，当输入向量为x_i时，组合核的基本定义为，

s.t.θ_i≥0,

其中，M是基核函数的总数量，θ_i是组合核函数的组合系数；

当输入向量为x和y时，对于线性核函数k(x,y)＝x·y，l阶线性核函数保持不变，即 k^(l)(x,y)＝k⁽¹⁾(x,y)＝x·y；p次多项式核为k(x,y)＝α(x·y+β)^p，其中，α和β为自由参数；RBF核函数定义为

步骤2.2：深层多核学习架构，组合核级联扩展到L层，则一个深层多核学习算法的第L层的组合核函数可以表示为：

K^(L)(x,y)＝φ^(L)(φ^(L-1)(...φ⁽¹⁾(x)))·φ^(L)(φ^(L-1)(...φ⁽¹⁾(y)))

其中，x和y是算法的输入向量；φ^(L)是非线性映射核函数。DWS-MKL算法中设计的深宽组合架构最高为3×3，因此，具体多层非线性映射核函数公式表示为，

线性核

多项式核

RBF核

步骤2.3：深层多通道多核学习架构，除了级联多层组合核，DWS-MKL算法扩展多个深层结构到多个通道，通道之间相互独立，互不连接。最后，各个通道的特征输出按照求和平均规则输入到一个组合核K_f：

其中，K_D,m是DWS-MKL算法深宽组合结构除了K_f之外最后一层D的第m个组合核。每一层组合核的总数由算法的独立通道数W决定；

DWS-MKL算法在d层w通道的组合核为K_d,w定义为：

其中，

是d层w通道的第m个基核函数，

是该基核函数对应的组合系数；

步骤2.4：深宽可变多核学习架构，由于DWS-MKL算法各层之间直接级联，即上一层组合核函数的输出是下一层基核函数的输入，且各通道之间相互独立，因此易于调整算法的深宽组合方式。

进一步的，所述步骤3的一个SVM分类器的决策函数为：

其中，α_i为对偶系数，b为决策函数f(x)的偏置；

SVM的优化问题为：

s.t.y_i(α_ik(x_i,x)+b)≥1-ξ_i,

ξ_i≥0,C＞0,i＝1,2,...,m

其中，

ξ_i为松弛变量；C为正则化系数；DWS-MKL算法的基础结构是多核组合核，每个组合核是多个基核函数的加权线性组合，因此算法的决策函数可以写为：

其中，θ_k为DWS-MKL算法深宽组合架构的组合系数，为不失一般性，将DWS-MKL 算法的决策函数统一写为：

组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得，DWS-MKL算法中基核函数对应的决策函数如下：

线性核

多项式核

RBF核

进一步的，所述步骤4中根据支持向量张成空间导出的估计T_span：DWS-MKL算法最小化误差上界T_span来优化算法参数，具体公式如下：

其中，

为SVM的系数；n为支持向量的数量；S_p是点φ(x_p)和集合Λ_p之间的距离，x_p是支持向量，具体地，Λ_p定义为：

DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值，构造函数为：

ψ(x)＝(1+exp(-Ax+B))^-1

其中，A和B是常数；本算法实现过程中，设置值为A＝5,B＝0；

可以表示为：

sv是一组支持向量，

K_sv为支持向量之间的点积矩阵，

上述公式由张成的空间给出的值不是连续的，DWS-MKL算法在计算

时使用正则化项代替约束，使

值平滑，公式如下：

使用矩阵表达简写为：

其中，Q是一个对角矩阵，矩阵元素为

Q_n+1,n+1＝0；η是一个常数， DWS-MKL算法中η＝0.1。

进一步的，所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行，当所求i次

与i-1次之间变化小于e^-4或者算法迭代运行100 次时，算法参数停止更新；参数更新公式如下：

其中，

计算梯度更新方向，经计算，偏导数近似表示为：

依据

的具体定义，偏导数可以计算为：

其中，矩阵

G是一个对角矩阵，矩阵元素为

G_n+1,n+1＝0；矩阵

其中，

为

去掉最后一行和最后一列的逆矩阵；

进一步的，所述步骤6中的手动设置超参数包括学习率为e^-5，最大迭代次数为100，SVM分类器的惩罚系数范围设置为C＝[10^-1,10,10²]，算法的深宽限定为 D∈[1,2,3],W∈[1,2,3]。

本发明的有益效果是：

1.本发明的DWS-MKL算法提升精度的同时其模型复杂度较低。

2.本发明的针对不同规模的数据集，确定模型结构的复杂程度更符合实际应用的需求。

3.本发明的DWS-MKL算法使用求解误差上界的方式确定结构的组合参数和分类器参数，提高算法的泛化能力，更松的界可以使算法提取到的特征更丰富，提高分类精度。

附图说明

图1本发明的结构示意图。

图2本发明的DWS-MKL算法总体架构示意图。

图3本发明的SVM分类器示意图。

图4本发明的数据集可视化，图4-(a)数据集2-D样本可视化，图4-(b)数据集 3-D样本可视化。

图5本发明的MNIST数据集分类结果，图5-(a)MNIST数据集的平均准确率±标准差，图5-(b)MNIST数据集的混淆矩阵。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

k(x_i,x_j)＝φ(x_i)φ(x_j)

因此，核矩阵K定义为：

步骤3：将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类，解决基本的数据分类问题，SVM分类器的输入为组合核K_f输出的特征；分类器具体架构如图3所示；

步骤4：将步骤3中将数据进行第一次分类后，进行核参数学习，DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差(leave-one-outerror)上界求解核参数，使用一个易于计算的量T_span来估计误差上界，T_span是根据支持向量张成空间导出的一个估计；更松的上界可以提高提取特征的丰富性，提升算法的泛化能力；

步骤2.1：深宽组合架构基本单元，DWS-MKL算法中每一层的组合核是多个核函数的线性组合，其一般框架如图1所示，当输入向量为x_i时，组合核的基本定义为，

s.t.θ_i≥0,

组合核的基核函数有很多选择，例如：线性核函数、多项式核函数、RBF核函数、Laplace核函数以及sigmoid核函数等。DWS-MKL算法的基核函数可以根据具体实际应用选择多种核函数进行组合。本发明DWS-MKL算法在实例测试中，选择了三种核函数作为每个组合核的基核函数，分别为线性核、多项式核和RBF核；

线性核

多项式核

RBF核

DWS-MKL算法在d层w通道的组合核为K_d,w定义为：

其中，

是d层w通道的第m个基核函数，

是该基核函数对应的组合系数；

通过以上描述，DWS-MKL算法深宽可变组合结构的总体架构如图2所示；

步骤2.4：深宽可变多核学习架构，由于DWS-MKL算法各层之间直接级联，即上一层组合核函数的输出是下一层基核函数的输入，且各通道之间相互独立，因此易于调整算法的深宽组合方式。针对同一数据集，不同深宽组合架构下的DWS-MKL算法分类准确率不同；针对不同规模的数据集，若深宽组合结构固定，并不能使所有数据集下的分类准确率都最高。因此，根据待解决问题的复杂性确定模型的复杂性是有必要且合理的；根据数据集灵活的调整算法的结构，这是DWS-MKL算法的主要特点；

将架构的深度和宽度的范围限制为D∈[1,2,3],W∈[1,2,3]。因此，可以获得九组不同的深宽组合结构包括：1×1、1×2、1×3、2×1、2×2、2×3、3×1、3×2和3×3。在不同的数据集下，DWS-MKL算法选择哪种深宽组合结构由算法学习确定。将架构的深度D和宽度W作为需要学习的参数，参与算法训练。使用网格搜索算法对不同的组合结构进行迭代训练，并在训练过程中使用5折交叉验证选择使分类结果最优的深度和宽度参数。

进一步的，所述步骤3的一个SVM分类器的决策函数为：

其中，α_i为对偶系数，b为决策函数f(x)的偏置；

SVM的优化问题为：

s.t.y_i(α_ik(x_i,x)+b)≥1-ξ_i,

ξ_i≥0,C＞0,i＝1,2,...,m

其中，

线性核

多项式核

RBF核

其中，

ψ(x)＝(1+exp(-Ax+B))^-1

其中，A和B是常数；本算法实现过程中，设置值为A＝5,B＝0；

可以表示为：

sv是一组支持向量，

K_sv为支持向量之间的点积矩阵，

时使用正则化项代替约束，使

值平滑，公式如下：

使用矩阵表达简写为：

其中，Q是一个对角矩阵，矩阵元素为

η是一个常数， DWS-MKL算法中η＝0.1。

与i-1次之间变化小于e^-4或者算法迭代运行100 次时，算法参数停止更新；所得的模型即为用于测试的最优模型；参数更新公式如下：

其中，

计算梯度更新方向，经计算，偏导数近似表示为：

依据

的具体定义，偏导数可以计算为：

其中，矩阵

G是一个对角矩阵，矩阵元素为

G_n+1,n+1＝0；矩阵

其中，

为

去掉最后一行和最后一列的逆矩阵；

若数据集的规模较小，使用过度设计的复杂结构会造成算法过拟合；若数据集复杂庞大，使用简单的结构无法充分提取数据特征，造成欠拟合。DWS-MKL算法在使用过程中，针对具体数据集确定组合结构的深度和宽度大小能有效提高算法的精度，也更符合应用的要求

实施例2

使用本方法对UCI数据集中的24组子数据集进行分类。将每组数据集按照1:1的比例划分成训练集和测试集。每一层每个通道的组合核由四个基核函数组成，包括线性核、RBF核以及多项式核(包含2阶多项式和3阶多项式，自由参数为α＝1和β＝1)。分类器选定为SVM标准分类器。模型训练中，算法迭代次数设置为100。学习率为lr＝1E-5。 SVM的惩罚系数设置为C∈[10^-1,10,10²]，最终通过5折交叉验证确定。使用MATLAB 实现算法，SVM分类器使用开源LIBSVM工具实现。对于多分类任务，算法使用 “one-vs-all”策略训练分类器。使用训练获得的模型在测试集上进行分类效果验证。针对不同的数据使用不同深度和宽度的9种组合结构，算法的分类准确率如表1所示。括号内数字代表指定的深宽组合结构下对测试集分类准确率的排序。数字越小代表该结构下的算法性能越好。表格最后一行为不同宽度的分类准确率平均排序。针对不同数据，分类准确率最高的深宽组合架构并不相同，说明根据数据调整算法结构是必要的。

表1高阶基核函数公式

表2基核函数对应的SVM分类决策函数

表3不同深宽组合结构下的分类准确率(％)

在表3中，将每一组数据中分类准确率最高的结果加粗以便于观察和分析。从表中可以看出，并不是所有最深最宽的结构分类结果都最好，例如Liver(1×2)、Mass(2×1)等。不同深宽组合结构的分类准确率排名如表4所示。当宽度为1和2时，算法分类准确率随着深度增加而提升；当宽度为3时，随着深度增加，算法分类准确率反而下降。同理，当深度为1时，算法分类准确率随着宽度增加而提升；当深度为2和3时，随着宽度增加，算法分类准确率先提升后下降。这是一种由于引入深度网络造成的“退化”现象。因此，针对不同的数据集，自适应调整算法的深宽组合结构能够更好的提取特征，有利于提高分类性能。

表4不同深宽组合结构的分类准确率平均排名

(D,W)	1	2	3
				1	5.17	3.88	3.58
2	4.04	3.83	4.16
				3	3.58	3.13	4.96

实施例3

使用本发明所提出的算法DWS-MKL用于大规模MNIST手写数字识别。MNIST数据集包含0～9的手写数字，样本均为28×28的灰度图。MNIST训练集包含50,000样本，测试集包含10,000样本。为便于观察，随机选取500样本使用T-SNE算法将数据降维为 2-D和3-D如图4所示。从图中可以看出，MNIST数据集的各个类别之间线性不可分。本实例可以证明DWS-MKL算法可以处理高维线性不可分的数据。

实验实现方法及超参数设置与实例一中一致，从MNIST训练集和测试集中分别随机抽取5000样本作为实验数据。重复运行10组分类实验，并计算平均准确率和标准差如图5所示。当算法为1×2深宽组合结构时，分类准确率最高为84.2％。标准差波动范围为2.5～2.8。其中一组实验结果的混淆矩阵如图5所示，矩阵中元素表示指定类别的数量。图中横轴为预测类别，纵轴为实际类别。预测结果大多数集中在矩阵的对角线上，表明分类较准确，算法对分类有效。因此，本发明的DWS-MKL算法能够处理高维非线性数据。

Claims

1.一种基于深宽可变多核学习的数据分类方法，其特征在于，所述学习方法包括以下步骤：

步骤1：数据集的准备，数据集中随机划分出50％的样本作为训练集用于训练模型参数，剩余50％的样本作为测试集用于验证算法性能，具有n个样本的数据集在输入算法之前整理为n×(m+1)维的向量，m为样本的特征数量，最后一维默认为标注信息，具有M类样本的数据标签为0～M；

步骤2：数据集分类的算法结构，DWS-MKL算法通过融合MKL与深度学习的层次化级联思想，构造多层多通道组合的多核学习的统一架构，多层由组合核之间级联产生，各个通道之间相互独立，架构的层数表示为算法的深度D，通道数表示为算法的宽度W，给定一组训练集样本D＝{(x₁,y₁),(x₂,y₂),...,(x_m,y_m)}，其中x_i∈Rⁿ，y_i∈{-1,1},i＝1,2,...,m。φ(x)表示将输入x从Rⁿ空间映射到高维希尔伯特空间的映射函数，则核函数k(x_i,x_j)满足：

k(x_i,x_j)＝φ(x_i)φ(x_j)

因此，核矩阵K定义为：

步骤3：将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类，SVM分类器的输入为组合核K_f输出的特征；

步骤4：将步骤3中将数据进行第一次分类后，进行核参数学习，DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差上界求解核参数，使用一个易于计算的量T_span来估计误差上界，T_span是根据支持向量张成空间导出的一个估计；步骤5：将步骤4中的核参数学习进行求解；DWS-MKL算法使用梯度投影法求解满足最小化误差上界T_span的组合系数；

步骤6：利用上述步骤进行数据训练，手动设置超参数；之后，输入训练数据进行迭代训练，并使用交叉验证算法确定C和最优的深度D和宽度W；经过训练，获得具有分类能力的SVM分类模型和算法深宽可变架构组合系数；

2.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法，其特征在于，所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想，构造多层多通道组合的多核学习的统一架构，多层由组合核之间级联产生，各个通道之间相互独立，包括以下步骤：