CN106022382A

CN106022382A - 面向复杂数据的混合范数多不定核分类方法

Info

Publication number: CN106022382A
Application number: CN201610356544.0A
Authority: CN
Inventors: 薛晖
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-10-12

Abstract

本发明公开了一种面向复杂数据的混合范数多不定核分类方法，包括以下步骤：(1)获取用于训练分类器的复杂数据；(2)预处理：通过多个核函数将复杂数据转换成训练分类器所需要的核矩阵；(3)模型设计：通过约束多类核间隔和采用多类Hinge‑loss损失函数来设计分类器模型；(4)模型构建：在多类核间隔和多类Hinge‑loss损失函数的基础上，利用不定核技术构造一个更有效的核组合；通过引入类间差异性来提高模型的灵活性；利用混合范数l_g,2‑范数(0＜g≤1)的稀疏性来降低模型的复杂度；(5)将新的复杂数据输入训练得到的分类器中，得到最终的分类结果。本发明提升了分类器在面对复杂数据时的分类能力和效率。

Description

面向复杂数据的混合范数多不定核分类方法

技术领域

本发明涉及模式识别与机器学习的技术领域，主要涉及到一种面向复杂数据的混合范数多不定核分类方法。

背景技术

随着大数据时代的来临，复杂数据(如基因数据、生物信息数据等)的学习和分类逐渐成为机器学习的研究热点。复杂数据因其维度高、样本量大、线性不可分、类别多等特点对传统的学习和分类方法提出了极大的挑战。由于所需处理的数据量和数据之间的复杂程度成倍增加，现有的方法已经不能满足复杂数据背景下对分类精度和效率的要求。因此，本发明提出了一种新的面向复杂数据的混合范数多不定核分类方法。

发明内容

发明目的：为了解决在复杂数据背景下的分类问题，本发明提出了一种面向复杂数据的混合范数多不定核分类方法，该方法旨在解决复杂数据所带来的维度高、样本量大、线性不可分、类别多等问题。

技术方案：在技术方案进行描述前，首先给出相关的定义及表示：

(a)样本：来自真实世界的生物数据集；

(b)类别标记：一个样本的所属类别；

(c)不定核：由再生核Kreǐn空间中数据内积演化而来的不定核函数；

(d)多类核间隔(Multi-class Kernel Margin):多类核间隔定义为两种均值的最小差值，前面一项是样本x与和x同属一类的所有样本的核函数值的均值，后面一项是样本x与和x不同属一类的所有样本的核函数值均值的最大值；

(e)类间差异性：考虑类间的差异性，为每一个类学习一个不同的核组合；(f)混合范数：l_g,2-范数，其中0＜g≤1，定义为：

本发明提供了一种面向复杂数据的混合范数多不定核分类方法，包括两个阶段：训练和应用，具体步骤如下：

(1)获取用于训练分类器的复杂数据；

(2)预处理：通过多个核函数将复杂数据转化成训练分类器所需的核矩阵；(3)模型设计：通过约束多类核间隔和采用多类Hinge-loss损失函数来设计分类器模型；

(4)模型构建：在多类核间隔和多类Hinge-loss损失函数的基础上，利用不定核技术构造一个更有效的核组合，提升分类器在面对复杂数据时的泛化能力以获得更优的经验分类结果；通过引入类间差异性来提高模型的灵活性；利用混合范数l_g,2-范数(0＜g≤1)的稀疏性来降低模型的复杂度；(5)将新的复杂数据输入训练得到的分类器中，得到最终的分类结果。

步骤(1)中，所述的复杂数据是生物数据集。

步骤(2)的具体步骤为：

采用69个核函数将低维的复杂数据映射到高维空间，转化为相对应的核矩阵，其中包括正定核矩阵和不定核矩阵；令X为输入空间，核函数k(·,·)是定义在X×X上的对称函数；对于任意数据D＝{x₁,x₂,…,x_m}，以一个高斯核为例得到下列核矩阵：

步骤(3)的具体步骤是：

(3.1)为多类分类问题构造预测函数；在多核的基础上，构造如下的分类器函数：

f (x) = (Σ_{i = 1}^{m} P_{j, i} Σ_{u = 1}^{r} q_{u} k_{u} (x, x_{i})), j = 1, ..., c

其中，j表示c个类中的第j个，i表示m个样本中的第i个；q＝[q₁,...,q_r]是核组合系数，u表示r个核函数k(·,·)的第u个；矩阵是分类器系数，定义如下：

(3.2)将上述的预测函数模型表示成如下的优化问题：

\underset{P, q}{m i n} Σ_{i = 1}^{m} l (f (x_{i})) + α | | q | |_{2}^{2} + β | | P | |_{2}^{2}

s.t.qe＝1

&ForAll; u : q_{u} &GreaterEqual; 0

其中，l(f(x))为损失函数，α和β是正则化参数；

(3.3)引入多类核间隔和多类Hinge-loss损失函数；

考虑一系列从X×Y映射到的假设H，多类分类问题通过某个假设为样本点x预测得到类别标记M_h(x,y)表示多类间隔，其定义如下：

M_{h} (x, y) = h (x, y) - \underset{y^{'} &NotEqual; y}{m a x} h (x, y^{'})

引入多类核间隔的概念，对于任一核函数k以及一个已知类别标记y的样本点(x,y)∈X×Y，k在样本(x,y)上的多类核间隔定义为x与样本x同属一类的所有样本的核函数均值和x与样本x不同属于一类的所有样本的核函数均值的最大值两者之间的差，用M_K(x,y)表示：

M_{K} (x, y) = \underset{(x^{'}, y^{'})}{E} [k (x, x^{'}) | y^{'} = y] - \underset{y^{'} &NotEqual; y}{m a x} \underset{(x^{''}, y^{''})}{E} [k (x, x^{'}) | y^{''} = y^{'}]

由于核函数的值和样本之间的距离是成反比的，所以多类核间隔实际上是定义在类别y和与之最近的类别的基础上，这样的定义使得多类核间隔更加符合多类间隔的定义。众多研究者已经证明，多类核间隔越大，分类器泛化误差的上界就会越小。

同时，使用多类Hinge-loss损失函数作为本模型的损失函数；多类Hinge-loss损失函数定义如下：

其中，向量P_j,·是分类器系数，K(x)＝[qk(x₁,x),…,qk(x_m,x)]^T，k(x_i,x)＝[k₁(x_i,x),…,k_r(x_i,x)]^T；定义如下：

将最大化多类核间隔准则和多类Hinge-loss损失函数同时融入至模型中：

\underset{P, q}{m i n} Σ_{i = 1}^{m} ζ_{i} + α | | q | |_{2}^{2} + β | | P | |_{2}^{2}

s.t.qe＝1

其中，向量P_j,·是分类器系数，ζ_i是用来增加模型容错能力的松弛变量，模型中的是定义在核组合K_q上的多类核间隔；M₀是多类核间隔的下界，用以避免核间隔退化。

步骤(4)的具体步骤如下：

(4.1)在步骤(3)所得到的模型的基础上，通过不定核技术、类间差异性和混合范数的使用来进一步优化模型，给出如下的预测函数：

f (x) = (Σ_{i = 1}^{m} P_{j, i} Σ_{u = 1}^{r} Q_{j, u} k_{u} (x, x_{i})), j = 1, ..., c

其中，Q＝[Q_1,1,...,Q_c,r]是核组合系数矩阵，为每一个类学习不同的核组合；j表示c个类中的第j个，u表示r个核函数k(·,·)的第u个；

(4.2)将上述的预测函数模型表示成如下的优化问题：

其中，向量P_j,·是分类器系数，K_j(x)＝[Q_j,·k(x₁,x),…,Q_j,·k(x_m,x)]^T，k(x_i,x)＝[k₁(x_i,x),…,k_r(x_i,x)]T；||Q||_g,2为混合范数，其定义为：是定义在核组合上的多类核间隔；M_j,0表示第j个类的多类核间隔下界，用以避免核间隔退化。

具体来说，本发明通过类间差异性为多分类问题中的每一个类学习不同的核组合系数，从而提高模型的灵活性和分类性能。此外，本发明通过使用g∈(0,1]的混合范数来增强模型的稀疏性，进一步提高分类器的分类性能和效率。最后，由于单个核函数和正定核的表达能力有限，本发明通过使用不同的核函数，尤其是不定核，对复杂数据的各个特征分量输入分别进行映射，使复杂数据在高维特征空间中分布和表达更优，明显地提高了分类正确率。

有益效果：本发明的优点主要体现在下面几点：

1、我们通过约束多类核间隔和采用多类Hinge-loss损失函数来更有效地利用数据信息和更好地处理多类分类问题；

2、利用不定核技术构造一个更有效的核组合，提升分类器在面对复杂数据时的泛化能力以获得更优的经验分类结果；

3、在多核学习框架中，通过引入类间差异性来提高模型的灵活性，从而更好地处理复杂数据；

4、最后，考虑到复杂数据的计算复杂度，本模型利用混合范数l_g,2-范数(0＜g≤1)的稀疏性来降低模型的复杂度，有效地提高分类器的计算效率。

附图说明

图1是本发明基于面向复杂数据的混合范数多不定核分类方法流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明主要针对复杂数据的学习和分类问题，结合不定核技术、类间差异性、混合范数、多类Hinge-loss损失函数和多类核间隔来设计一个更优的多类分类器。所面临的问题主要包括以下几点：

1、复杂数据通常具有类别多的特点，如何将模型扩展到多类分类是首要问题；

2、复杂数据通常具有维度高、线性不可分的特点，这将导致出现机器学习中的“维度灾难”问题，从而使得模型难以计算，时间开销很大。单一的核函数尤其是正定核的效果十分有限；

3、复杂数据通常具有样本量大的特点，这将导致学习过程过长。所以如何降低模型的复杂度至关重要。

如图1所示，一种面向复杂数据的混合范数多不定核分类方法，包括两个阶段：训练和测试。具体步骤如下：

1)获取用于训练分类器的复杂数据；

2)预处理：将复杂数据转换成训练分类器所需要的核矩阵；

3)模型设计：为了更有效地利用数据信息和更好地处理多类分类问题，在设计模型时我们通过约束多类核间隔和采用多类Hinge-loss损失函数来实现这一目标，最终得到分类器；

4)模型构建：在多类核间隔和多类Hinge-loss损失函数的基础上进一步利用不定核技术构造一个更有效的核组合，提升分类器在面对复杂数据时的泛化能力以获得更优的经验分类结果。通过引入类间差异性来提高模型的灵活性，从而更好的处理复杂数据。最后，考虑到复杂数据的计算难度，本模型利用混合范数l_g,2-范数(0＜g≤1)的稀疏性来降低模型的复杂度，有效地提高分类器的计算效率；

5)将用于训练的复杂数据输入训练得到的分类器中，得到最终的分类结果。

现有的许多算法如M³K等都证明了多类核间隔和多类Hinge-loss损失函数在多类分类问题中的有效性，但是这些算法没有考虑到复杂数据下模型计算复杂度的大幅增加，以及多类问题类间自身的差异性。针对上述问题，我们首先利用类间差异性为多分类问题中的每一个类学习不同的核组合系数，从而提高模型的灵活性。然后，通过使用g∈(0,1]的混合范数来增强模型的稀疏性，进一步提高分类器的分类性能和效率。最后，由于单个核函数尤其是正定核的表达能力有限，通过不定核组合对数据的各个特征分量输入分别进行映射，使数据在高维特征空间中分布和表达更优，明显地提高了分类正确率。

具体地，我们通过约束多类核间隔和采用多类Hinge-loss损失函数得到分类器。

首先，在多核的基础上，构造如下的分类器函数：

f (x) = (Σ_{i = 1}^{m} P_{j, i} Σ_{u = 1}^{r} q_{u} k_{u} (x, x_{i})), j = 1, ..., c - - - (1)

其中，j表示c个类中的第j个，i表示m个样本中的第i个。q＝[q₁,...,q_r]是核组合系数，u表示r个核函数k(·,·)的第u个。矩阵是分类器系数，定义如下：

然后，我们将上述的预测函数表示为下列的优化问题：

\underset{P, q}{m i n} Σ_{i = 1}^{m} l (f (x_{i})) + α | | q | |_{2}^{2} + β | | P | |_{2}^{2} - - - (2)

s.t.qe＝1

&ForAll; u : q_{u} &GreaterEqual; 0

其中，l(f(x))为损失函数，α和β是正则化参数。

接下来，引入多类核间隔和多类Hinge-loss损失函数。令X为输入空间，Y＝{1,2,….,c}为类别标记的集合。

考虑一系列从X×Y映射到的假设H。多类分类问题通过某个假设为样本点x预测得到类别标记M_h(x,y)表示多类间隔，其定义如下：

M_{h} (x, y) = h (x, y) - \underset{y^{'} &NotEqual; y}{m a x} h (x, y^{'}) - - - (3)

引入多类核间隔的概念，对于任一核函数k以及一个已知类别标记y的样本点(x,y)∈X×Y，k在样本(x,y)上的多类核间隔定义为x与样本x同属一类的所有样本的核函数均值和x与样本x不同属于一类的所有样本的核函数均值的最大值两者之间的差。用M_K(x,y)表示：

M_{K} (x, y) = \underset{(x^{'}, y^{'})}{E} [k (x, x^{'}) | y^{'} = y] - \underset{y^{'} &NotEqual; y}{m a x} \underset{(x^{''}, y^{''})}{E} [k (x, x^{'}) | y^{''} = y^{'}] - - - (4)

由于核函数的值和样本之间的距离是成反比的，所以多类核间隔实际上是定义在类别y和与之最近的类别的基础上，这样的定义使得多类核间隔更加符合多类间隔(3)的定义。众多研究者已经证明，多类核间隔越大，分类器泛化误差的上界就会越小。

同时使用多类Hinge-loss损失函数作为本模型的损失函数。多类Hinge-loss定义如下：

其中，向量P_j,·是分类器系数，K(x)＝[qk(x₁,x),…,qk(x_m,x)]^T，k(x_i,x)＝[k₁(x_i,x),…,k_r(x_i,x)]^T。定义如下：

多类Hinge-loss损失函数可以将多个类别的间隔巧妙地联系在一起，从而在处理多类分类问题时可以利用更多的类间有效信息，从而提高模型的分类性能。

我们将最大化多类核间隔准则和多类Hinge-loss损失函数同时融入至我们的模型中：

\min_{P, q} Σ_{i = 1}^{m} ζ_{i} + α {| | q | |}_{2}^{2} + β {| | P | |}_{2}^{2} - - - (7)

s.t.qe＝1

其中，ζ_i是用来增加模型容错能力的松弛变量，模型中的是定义在核组合K_q上的多类核间隔。M₀是多类核间隔的下界，用以避免核间隔退化，从而提高模型的分类性能。

针对复杂数据的特点，进一步地，我们利用不定核技术构造一个更有效的核组合，从而提升分类器在面对复杂数据时的泛化能力从而获得更优的经验分类结果；通过引入类间差异性来提高模型的灵活性，从而更好地处理复杂的数据；最后利用混合范数l_g,2-范数(0＜g≤1)的稀疏性来降低模型的复杂度，有效地提高分类器的计算效率。具体步骤如下：

在上面模型的基础上，我们通过不定核技术、类间差异性和混合范数的使用来进一步地优化模型。

给出如下的预测函数：

f (x) = (Σ_{i = 1}^{m} P_{j, i} Σ_{u = 1}^{r} Q_{j, u} k_{u} (x, x_{i})), j = 1, ..., c - - - (8)

其中，Q＝[Q_1,1,...,Q_c,r]是核组合系数矩阵，我们为每一个类学习不同的核组合。j表示c个类中的第j个，u表示r个核函数的第u个。

我们将上述的预测函数模型表示成如下的优化问题：

其中，向量P_j,·是分类器系数，K_j(x)＝[Q_j,·k(x₁,x),…,Q_j,·k(x_m,x)]^T，k(x_i,x)＝[k₁(x_i,x),…,k_r(x_i,x)]^T。||Q||_g,2为混合范数，其定义为是定义在核组合上的多类核间隔。M_j,0表示第j个类的多类核间隔下界，用以避免核间隔退化。

具体来说，我们通过类间差异性为多分类问题中的每一个类学习不同的核组合系数，从而提高模型的灵活性和分类性能。此外，我们通过使用g∈(0,1]的混合范数来增强模型的稀疏性，进一步提高分类器的分类性能和效率。最后，由于单个核函数和正定核的表达能力有限，通过不同的核函数，尤其是不定核，对复杂数据的各个特征分量输入分别进行映射，使复杂数据在高维特征空间中分布和表达更优，明显地提高了分类正确率。

我们采用生物数据集来检验我们算法的有效性。首先通过预处理，将生物数据转化成我们需要的核矩阵。接下来按照本文提出的算法训练多类分类器。最后使用测试数据进行验证。本发明分别与SimpleMKL、MCMKL、M³K算法进行了对比，实验结果如表1所示。实验结果表明，本发明中提出的面向复杂数据的混合范数多不定核分类方法的分类结果明显高于其他算法，在Plant、PsortPos、PsortNeg数据集上分类精度分别有50％～70％的大幅提升，而且稳定性较高，这强有力地验证了我们所提方法的有效性。

表1 生物数据集上分类精度对比实验结果

综上，在本发明中，我们针对复杂数据的上述特点，采用了不同的解决策略，具体如下：

(1)针对复杂数据类别多的特点，我们使用多类Hinge-loss损失函数来使得原本仅可用于两类分类的支持向量机(Support Vector Machine)技术可以自然地扩展到多类分类问题。此外，通过约束更大的多类核间隔提升多类分类器的分类性能；

(2)针对复杂数据样本量大进而导致学习过程过长的特点，我们利用混合范数l_g,2-范数(0＜g≤1)的稀疏性来降低模型的复杂度，有效地提高分类器的计算效率；

(3)针对复杂数据维度高、线性不可分的特点，我们使用核方法将原始空间线性不可分的数据映射到高维空间从而变得线性可分。此外，核方法的优点还在于通过核函数隐式地完成了从低维空间向高维空间的映射，而不需要知道原本非线性映射的具体形式，从而巧妙地解决了高维特征空间中可能出现的“维度灾难”问题。

受限于传统统计学习理论，尽管核方法有诸多的优点，但目前的核方法通常要求核是正定的，这极大地限制了核方法在实际应用中的使用和推广。与正定核相比，更广泛的不定核具有更好的泛化能力和更优的经验分类结果，正逐渐成为机器学习领域的一个新的研究热点。例如，在人脸识别和视频追踪问题中，Liu和Liwicki通过不定核技术获得了明显优于正定核的实验结果。因此在本发明中，我们使用不定核组合将复杂数据的各个特征分量输入分别进行映射，使数据在高维特征空间中分布和表达更优，以期使得模型在处理复杂数据时具有更好的泛化能力和更优的分类结果。此外，我们进一步引入类间差异性的概念为每一个类学习不同的核组合，来提高模型的灵活性，以更好地处理复杂数据。

综上所述，为了更有效地利用复杂数据的信息和更好地处理复杂数据中的多类分类问题，我们首先通过约束多类核间隔和采用多类Hinge-loss损失函数，得到分类器模型。然后利用不定核技术构造一个更有效的核组合，从而提升分类器在面对复杂数据时的泛化能力以获得更优的分类效果。此外，我们通过引入类间差异性来提高模型的灵活性，从而更好地处理复杂数据。最后，模型利用混合范数l_g,2-范数(0＜g≤1)的稀疏性来降低模型的复杂度，有效地提高分类器的计算效率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向复杂数据的混合范数多不定核分类方法，其特征在于：包括以下步骤：

(1)获取用于训练分类器的复杂数据；

(2)预处理：通过多个核函数将复杂数据转化成训练分类器所需的核矩阵；

(3)模型设计：通过约束多类核间隔和采用多类Hinge-loss损失函数来设计分类器模型；

(4)模型构建：在多类核间隔和多类Hinge-loss损失函数的基础上，利用不定核技术构造一个更有效的核组合，提升分类器在面对复杂数据时的泛化能力以获得更优的经验分类结果；通过引入类间差异性来提高模型的灵活性；利用混合范数l_g,2-范数(0＜g≤1)的稀疏性来降低模型的复杂度；

(5)将新的复杂数据输入训练得到的分类器中，得到最终的分类结果。

2.根据权利要求1所述的面向复杂数据的混合范数多不定核分类方法，其特征在于：步骤(1)中，所述的复杂数据是生物数据集。

3.根据权利要求1所述的面向复杂数据的混合范数多不定核分类方法，其特征在于：步骤(2)的具体步骤为：

采用69个核函数将低维的复杂数据映射到高维空间，转化为相对应的核矩阵，其中包括正定核矩阵和不定核矩阵；令X为输入空间，Rⁿ表示n维欧氏空间，核函数k(·,·)是定义在X×X上的对称函数；对于任意数据D＝{x₁,x₂,…,x_m}，以一个高斯核为例得到下列核矩阵：

4.根据权利要求1所述的面向复杂数据的混合范数多不定核分类方法，其特征在于：步骤(3)的具体步骤是：

(3.1)为多类分类问题构造预测函数：在多核的基础上，构造如下的分类器函数：

f (x) = (Σ_{i = 1}^{m} P_{j, i} Σ_{u = 1}^{r} q_{u} k_{u} (x, x_{i})), j = 1, ..., c

其中，j表示c个类中的第j个，i表示m个样本中的第i个；q＝[q₁,...,q_r]是核组合系数，u表示r个核函数k(·,·)中的第u个；矩阵是分类器系数，定义如下：

(3.2)将上述的预测函数模型表示成如下的优化问题：

\underset{P, q}{m i n} Σ_{i = 1}^{m} l (f (x_{i})) + α | | q | |_{2}^{2} + β | | P | |_{2}^{2}

s.t.qe＝1

&ForAll; u : q_{u} &GreaterEqual; 0

其中，l(f(x))为损失函数，α和β是正则化参数；

(3.3)引入多类核间隔和多类Hinge-loss损失函数：

M_{h} (x, y) = h (x, y) - \underset{y &NotEqual; y}{m a x} h (x, y^{'})

M_{K} (x, y) = \underset{(x^{'}, y^{'})}{E} [k (x, x^{'}) | y^{'} = y] - \underset{y^{'} &NotEqual; y}{m a x} \underset{(x^{''}, y^{''})}{E} [k (x, x^{'}) | y^{''} = y^{'}]

\underset{P, q}{m i n} Σ_{i = 1}^{m} ζ_{i} + α | | q | |_{2}^{2} + β | | P | |_{2}^{2}

s.t.qe＝1

&ForAll; u : q_{u} &GreaterEqual; 0

5.根据权利要求1所述的面向复杂数据的混合范数多不定核分类方法，其特征在于：步骤(4)的具体步骤如下：

f (x) = (Σ_{i = 1}^{m} P_{j, i} Σ_{u = 1}^{r} Q_{j, u} k_{u} (x, x_{i})), j = 1, ..., c

(4.2)将上述的预测函数模型表示成如下的优化问题：

\underset{P, q, ζ}{m i n} Σ_{i = 1}^{m} ζ_{i} + α | | Q | |_{g, 2}^{2} + β | | P | |_{2}^{2}

\begin{matrix} s . t . & &ForAll; j : Q_{j, \cdot} e = 1 \end{matrix}

&ForAll; j : &ForAll; u : Q_{j, u} &GreaterEqual; 0

&ForAll; j : {\hat{M}}_{K_{Q_{j}}} &GreaterEqual; M_{j, 0}

其中，向量P_j,·是分类器系数，K_j(x)＝[Q_j,·k(x₁,x),…,Q_j,·k(x_m,x)]^T，k(x_i,x)＝[k₁(x_i,x),…,k_r(x_i,x)]^T；||Q||_g,2为混合范数，其定义为：是定义在核组合上的多类核间隔；M_j,0表示第j个类的多类核间隔下界，用以避免核间隔退化。