CN103605813A

CN103605813A - 一种域适应学习的最优核组合选择方法

Info

Publication number: CN103605813A
Application number: CN201310669455.8A
Authority: CN
Inventors: 董乐; 全品杰; 封宁; 吕娜
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-12-10
Filing date: 2013-12-10
Publication date: 2014-02-26

Abstract

本发明涉及一种域适应学习的最优核组合选择方法。在实际应用场景中，通常由于缺少足够的具有标签的样本，以至于不能够训练一个鲁棒的分类器。但是，可以利用已经进行了标签的大量样本来帮助目标域中的数据来训练分类器。本发明将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率，同时，用支持向量机对辅助域与目标域的数据进行经验结构风险最小化。在建模过程中，本发明采取的是多核支持向量机。因此，可以构建一个以核组合参数的目标函数，最后可以通过最优化方法解该目标函数。然后会得到一个分类器，可以对目标域的数据进行分类。

Description

一种域适应学习的最优核组合选择方法

发明领域

本发明属于跨域学习领域中的一种最优核组合选择算法，具体讲，是在两个样本域不同分布并且其中一个样本的标签数据稀少的基础上，通过核组合方法利用辅助域的数据在目标域中训练一个分类器。

背景技术

传统的机器学习方法通常假设训练数据与测试数据服从同一分布。但是对于很多实际的应用，非常困难获取足够的具有标签的样本来训练一个鲁棒的分类器。最近，很多研究者关注跨域学习的问题，也就是说通过利用辅助域的数据（已标签）来帮助目标域（少量标签，但不足以训练一个鲁棒的分类器）训练一个分类器，但是目标域与辅助域的并不服从同一分布。

为了充分利用目标域与辅助域的标签数据，Daume提出了一个feature replication方法来用增强feature。这种扩展feature的方法通过构造一个支持向量机核函数来执行。Yang等人提出了自适应向量机方法来进行跨域学习，并且成功将这个方法用于视觉概念分类。主要是通过辅助域的分类器来适配新的分类器。Jiang等人提出了跨域支持向量机通过用k最邻近方法来对每一个标签数据定义一个权重，然后通过不断调整权重来训练分类器。

这些方法共同的一个不足是，这些方法没有充分利用目标域中没有标签的数据，没有标签的数据可以用来提升分类器的性能。一个共同的观察，这些方法都利用了支持向量机、支持向量机的变体以及相应的核方法，将目标域与辅助域的源数据映射到特征空间来获得一个鲁棒的分类器，同时最小化目标域与辅助域之间的不匹配程度。分类器的性能严重的依赖于核函数以及相关参数的选择。在本发明中，我们提出了一个方法在跨域学习中进行最优核组合的选择。

发明内容

本发明的目的是在于为了克服传统机器学习目标域样本标签数据稀少的情况下，不足以用目标域中的标签样本训练鲁棒的分类器。我们通过域适应方法，充分利用大量标签的辅助域数据为目标域训练一个鲁棒的分类器，应用于目标域数据的分类工作。在跨域学习过程中，需要用到相应的核函数组合，而本发明实现了一种方法用来求解得到一组最优的核函数组合。

为实现上述目标，本创新发明的技术解决方案如下：

一种域适应学习的最优核组合选择方法，其特征在于包括以下步骤：

步骤1、将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率，同时，用支持向量机对辅助域与目标域的数据进行经验结构风险最小化。

注：辅助域，即与目标样本相似的具有大量标签的样本域。目标域，即我们需要对该样本域训练一个分类器，而该样本域没有足够的标签样本来训练一个鲁棒的分类器。

本发明采用流行的20Newsgrous数据库进行实验，改数据库共有六个主要的类别与20种不同的新闻组，每一个新闻组属于不同的主题。具体采取的辅助域与目标域样本如下：

设置	辅助域	目标域
			Rec vs comp	rec.sport.hockeyand comp.windows.x	rec.motocycles and comp.sys.pc.hardware
Rec vs sci	rec.sport.hockey and sci.crypt	rec.motocycles and sci.med
			Rec vs talk	rec.sport.hockey and talk.politics.mideast	rec.motocyclesand talk.politics.guns

步骤2、构建以多核系数为参数的目标函数，该目标函数为本发明的主要部分，发明包括该目标函数已经解该目标函数的过程，目标函数具体如下：

公式1.1

其中，

单调函数，P(η＜t)是两个样本在映射后的空间服从同一分布的概率，λ为平衡因子，ψ为以多核组合系数为参数的结构风险函数，其中

约束条件：

公式中w是垂直于超平面的向量、b为标准支持向量机的位移参数；

Ω是对核组合系数的约束函数，

为映射函数。其中，P(η＜t)＝dQd，d为核组合系数，y_i＝{-1,+1}表示样本的标签属性，ξ_i是松弛变量，Q为以正负样本构建的MMD平方（Maximum Mean Discrepancy）协方差矩阵。即是以下变量的协方差矩阵：

公式1.3

η (D^{A}, D^{T}) = {| | φ (D^{A}) - φ (D^{T}) | |}^{2} = Σ_{i = 1}^{M} d_{i} η_{j} (D^{A}, D^{T})

D^A为辅助域数据，D^T为目标域数据。

附图说明

图1为本发明实验所采取的数据集合

图2为采用图一中的数据集合用本发明方法所得到的实验结果

图2中实验中参数：平衡因子\lambda=1,目标域中正负样本m=7,实验结果如图2。

具体实施方式:

核函数：

设x,z∈X,X属于R（n）空间,非线性函数Φ实现输入空间X到特征空间F的映射,其中F属于R（m）,n<<m。根据核函数技术有：K(x,z)=<Φ(x),Φ(z)>（1）

其中：<,>为内积,K(x,z)为核函数。从式(1)可以看出，核函数将m维高维空间的内积运算转化为n维低维输入空间的核函数计算，从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题，从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。

常见核函数类型：

高斯核函数: k(x,x_i)＝exp(-||x-x_i||²)/2σ²

多项式核函数： k(x,x_i)＝(x·x_i+1)^d,d＝1,2...N

感知器核函数：k(x,x_i)＝tanh(β·x_i+b)

传统的方法解决域适应问题的时候一般都是用到一个核函数,用高斯核函数的居多，然后有一些方法采取了多核的办法，也就是将多个核组织起来，这样的结果会更好，多核的公式一般如下：

K(x,x_i)＝d₁k(x,x_i)+d₂k(x,x_i)+...+d_nk(x,x_i)

而本发明却是要求解核前面的那组系数，因为其他方法一般是根据经验固定系数的。

那么这些公式与我的发明内容有什么联系呢：

首先：

我们将辅助域与目标域的样本数据看做一个个向量模式x，因为辅助域的数据是已经进行了标签的，而目标域的数据时很少有标签的，很简单我们就是要利用辅助域的数据来帮助目标域来训练一个分类器。

f (x) = w^{'} φ (x) + b = Σ_{i = 1}^{N} d_{i} k (x, x_{i}) + b

但是这个分类器的系数怎么求呢？

因为目标域与辅助域是不同分布的，所以，我们必须要？怎么可以做到？因为他们都要映射到高维空间啊，用到了用多核组织起来的核函数，所以我们能够通过最小化这种不匹配程度来不断的调整不同核前面的哪个参数。同时还需要用结构风险函数来多分类器进行约束。这样，我们就可以构建起来我们的目标函数了。

公式1.1

公式1.1第一项

就是约束函数，用来衡量目标域与辅助域在高维空间分布一致性的概率，约束函数采用例如倒数的形式，例如，

那么是不是x越大，f(x)就越小呢，嗯，同时也代表了目标域与辅助域的分布越相似，f(x)的值也就越小，关于ψ(d)，是标准的多核支持向量机，我们主要是要解多核组合系数的，所以这里以d为系数，当然向量机里面还有其他参数需要求的，下面等式有描述。

那么这样，我们岂不是可以构建一个目标函数来求得多核组合前面的系数d了呢?

显然，通过上面的目标函数，我们就可以把d求出来，然后就可以得到分类器了，然后就可以对目标域的数据进行分类了，这就把目标函数与我们的发明联系起来了。

本发明是一种跨域学习的最优核组合选择算法。根据发明内容得到的目标函数，最后可以简化成二次最优化问题得到解决。推导发明内容所述目标函数得到如下最优化结构：

公式1.4

\min_{d &Element; D} T (d) = \min_{w, ξ, b} λ (\frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{N} ξ_{i}) + J (d)

S.t

y_{i} (Σ_{i = 1}^{N} w_{i} φ (x_{i}) + b) &GreaterEqual; 1 - ξ_{i}, ξ > 0, d > 0

其中，

相应的符号表示意义同上面所述。为了解上述最优化问题，本发明采用的技术方案如下：

第一步：根据公式1.4，得到上述最优化结构的对偶问题

公式1.5

W (d) = \max_{a} 1^{T} a - \frac{1}{2} a^{T} {YK}_{d} Ya + J (d)

S.t

1^TYa＝0,0≤a≤C

第二步：根据对偶问题的形式，即公式1.5，固定d解上述问题得到对偶变量a

第三步：根据第二步结果，固定a，用投影梯度下降算法得到d，不断迭代直到满足终止条件，目标函数可以写成

公式1.6

M (d) = \frac{1}{2} d^{'} Qd + 1^{'} {α - \frac{1}{2} α}^{T} {YK}_{d} Yα + J (d) .

在第k+1次迭代，我们采取二阶梯度下降算法去更新系数d的线性组合通过以下公式：

公式1.7

d^{k + 1} = d^{k} - ϵ^{k} {&dtri;}^{2} G,

其中，ε是算法的学习速率，

是更新方向，值得注意的是Q不是满秩矩阵，为了避免数值不稳定问题，我们定义Q＝Q+τE，在本发明实验中τ＝10^-6。

Claims

1.一种域适应学习的最优核组合选择方法，其特征在于包括以下步骤：

步骤1、将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率，同时，用支持向量机对辅助域与目标域的数据进行经验结构风险最小化；

步骤2、构建以多核系数为参数的目标函数，将求解出核组合系数，并且能够得到分类器的参数，目标函数具体如下：

其中，

目标函数的约束条件：

y_{i} (Σ_{i = 1}^{N} w_{i} φ (x_{i}) + b) &GreaterEqual; 1 - ξ_{i}, ξ > 0, b > 0

Ω是对核组合系数的约束函数，φ为映射函数，其中，P(η＜t)＝dQd，d为核组合系数，y_i＝{-1,+1}表示样本的标签属性，ξ_i是松弛变量，Q为以正负样本构建的MMD平方协方差矩阵，即是以下变量的协方差矩阵：

公式中η的含义D^A为辅助域数据，D^T为目标域数据。