CN103605813A - 一种域适应学习的最优核组合选择方法 - Google Patents

一种域适应学习的最优核组合选择方法 Download PDF

Info

Publication number
CN103605813A
CN103605813A CN201310669455.8A CN201310669455A CN103605813A CN 103605813 A CN103605813 A CN 103605813A CN 201310669455 A CN201310669455 A CN 201310669455A CN 103605813 A CN103605813 A CN 103605813A
Authority
CN
China
Prior art keywords
data
territory
domain
function
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310669455.8A
Other languages
English (en)
Inventor
董乐
全品杰
封宁
吕娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201310669455.8A priority Critical patent/CN103605813A/zh
Publication of CN103605813A publication Critical patent/CN103605813A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种域适应学习的最优核组合选择方法。在实际应用场景中,通常由于缺少足够的具有标签的样本,以至于不能够训练一个鲁棒的分类器。但是,可以利用已经进行了标签的大量样本来帮助目标域中的数据来训练分类器。本发明将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率,同时,用支持向量机对辅助域与目标域的数据进行经验结构风险最小化。在建模过程中,本发明采取的是多核支持向量机。因此,可以构建一个以核组合参数的目标函数,最后可以通过最优化方法解该目标函数。然后会得到一个分类器,可以对目标域的数据进行分类。

Description

一种域适应学习的最优核组合选择方法
发明领域
本发明属于跨域学习领域中的一种最优核组合选择算法,具体讲,是在两个样本域不同分布并且其中一个样本的标签数据稀少的基础上,通过核组合方法利用辅助域的数据在目标域中训练一个分类器。
背景技术
传统的机器学习方法通常假设训练数据与测试数据服从同一分布。但是对于很多实际的应用,非常困难获取足够的具有标签的样本来训练一个鲁棒的分类器。最近,很多研究者关注跨域学习的问题,也就是说通过利用辅助域的数据(已标签)来帮助目标域(少量标签,但不足以训练一个鲁棒的分类器)训练一个分类器,但是目标域与辅助域的并不服从同一分布。
为了充分利用目标域与辅助域的标签数据,Daume提出了一个feature replication方法来用增强feature。这种扩展feature的方法通过构造一个支持向量机核函数来执行。Yang等人提出了自适应向量机方法来进行跨域学习,并且成功将这个方法用于视觉概念分类。主要是通过辅助域的分类器来适配新的分类器。Jiang等人提出了跨域支持向量机通过用k最邻近方法来对每一个标签数据定义一个权重,然后通过不断调整权重来训练分类器。
这些方法共同的一个不足是,这些方法没有充分利用目标域中没有标签的数据,没有标签的数据可以用来提升分类器的性能。一个共同的观察,这些方法都利用了支持向量机、支持向量机的变体以及相应的核方法,将目标域与辅助域的源数据映射到特征空间来获得一个鲁棒的分类器,同时最小化目标域与辅助域之间的不匹配程度。分类器的性能严重的依赖于核函数以及相关参数的选择。在本发明中,我们提出了一个方法在跨域学习中进行最优核组合的选择。
发明内容
本发明的目的是在于为了克服传统机器学习目标域样本标签数据稀少的情况下,不足以用目标域中的标签样本训练鲁棒的分类器。我们通过域适应方法,充分利用大量标签的辅助域数据为目标域训练一个鲁棒的分类器,应用于目标域数据的分类工作。在跨域学习过程中,需要用到相应的核函数组合,而本发明实现了一种方法用来求解得到一组最优的核函数组合。
为实现上述目标,本创新发明的技术解决方案如下:
一种域适应学习的最优核组合选择方法,其特征在于包括以下步骤:
步骤1、将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率,同时,用支持向量机对辅助域与目标域的数据进行经验结构风险最小化。
注:辅助域,即与目标样本相似的具有大量标签的样本域。目标域,即我们需要对该样本域训练一个分类器,而该样本域没有足够的标签样本来训练一个鲁棒的分类器。
本发明采用流行的20Newsgrous数据库进行实验,改数据库共有六个主要的类别与20种不同的新闻组,每一个新闻组属于不同的主题。具体采取的辅助域与目标域样本如下:
设置 辅助域 目标域
Rec vs comp rec.sport.hockeyand comp.windows.x rec.motocycles and comp.sys.pc.hardware
Rec vs sci rec.sport.hockey and sci.crypt rec.motocycles and sci.med
Rec vs talk rec.sport.hockey and talk.politics.mideast rec.motocyclesand talk.politics.guns
步骤2、构建以多核系数为参数的目标函数,该目标函数为本发明的主要部分,发明包括该目标函数已经解该目标函数的过程,目标函数具体如下:
公式1.1
Figure BDA0000433679980000021
其中,
Figure BDA0000433679980000022
单调函数,P(η<t)是两个样本在映射后的空间服从同一分布的概率,λ为平衡因子,ψ为以多核组合系数为参数的结构风险函数,其中
Figure BDA0000433679980000023
约束条件:
Figure BDA0000433679980000024
公式中w是垂直于超平面的向量、b为标准支持向量机的位移参数;
Ω是对核组合系数的约束函数,
Figure BDA0000433679980000025
为映射函数。其中,P(η<t)=dQd,d为核组合系数,yi={-1,+1}表示样本的标签属性,ξi是松弛变量,Q为以正负样本构建的MMD平方(Maximum Mean Discrepancy)协方差矩阵。即是以下变量的协方差矩阵:
公式1.3 η ( D A , D T ) = | | φ ( D A ) - φ ( D T ) | | 2 = Σ i = 1 M d i η j ( D A , D T )
DA为辅助域数据,DT为目标域数据。
附图说明
图1为本发明实验所采取的数据集合
图2为采用图一中的数据集合用本发明方法所得到的实验结果
图2中实验中参数:平衡因子\lambda=1,目标域中正负样本m=7,实验结果如图2。
具体实施方式:
核函数:
设x,z∈X,X属于R(n)空间,非线性函数Φ实现输入空间X到特征空间F的映射,其中F属于R(m),n<<m。根据核函数技术有:K(x,z)=<Φ(x),Φ(z)>(1)
其中:<,>为内积,K(x,z)为核函数。从式(1)可以看出,核函数将m维高维空间的内积运算转化为n维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。
常见核函数类型:
高斯核函数:  k(x,xi)=exp(-||x-xi||2)/2σ2
多项式核函数:  k(x,xi)=(x·xi+1)d,d=1,2...N
感知器核函数:k(x,xi)=tanh(β·xi+b)
传统的方法解决域适应问题的时候一般都是用到一个核函数,用高斯核函数的居多,然后有一些方法采取了多核的办法,也就是将多个核组织起来,这样的结果会更好,多核的公式一般如下:
K(x,xi)=d1k(x,xi)+d2k(x,xi)+...+dnk(x,xi)
而本发明却是要求解核前面的那组系数,因为其他方法一般是根据经验固定系数的。
那么这些公式与我的发明内容有什么联系呢:
首先:
我们将辅助域与目标域的样本数据看做一个个向量模式x,因为辅助域的数据是已经进行了标签的,而目标域的数据时很少有标签的,很简单我们就是要利用辅助域的数据来帮助目标域来训练一个分类器。
f ( x ) = w &prime; &phi; ( x ) + b = &Sigma; i = 1 N d i k ( x , x i ) + b
但是这个分类器的系数怎么求呢?
因为目标域与辅助域是不同分布的,所以,我们必须要?怎么可以做到?因为他们都要映射到高维空间啊,用到了用多核组织起来的核函数,所以我们能够通过最小化这种不匹配程度来不断的调整不同核前面的哪个参数。同时还需要用结构风险函数来多分类器进行约束。这样,我们就可以构建起来我们的目标函数了。
公式1.1
Figure BDA0000433679980000032
公式1.1第一项
Figure BDA0000433679980000041
就是约束函数,用来衡量目标域与辅助域在高维空间分布一致性的概率,约束函数采用例如倒数的形式,例如,
Figure BDA0000433679980000042
那么是不是x越大,f(x)就越小呢,嗯,同时也代表了目标域与辅助域的分布越相似,f(x)的值也就越小,关于ψ(d),是标准的多核支持向量机,我们主要是要解多核组合系数的,所以这里以d为系数,当然向量机里面还有其他参数需要求的,下面等式有描述。
那么这样,我们岂不是可以构建一个目标函数来求得多核组合前面的系数d了呢?
显然,通过上面的目标函数,我们就可以把d求出来,然后就可以得到分类器了,然后就可以对目标域的数据进行分类了,这就把目标函数与我们的发明联系起来了。
本发明是一种跨域学习的最优核组合选择算法。根据发明内容得到的目标函数,最后可以简化成二次最优化问题得到解决。推导发明内容所述目标函数得到如下最优化结构:
公式1.4
min d &Element; D T ( d ) = min w , &xi; , b &lambda; ( 1 2 | | w | | 2 + C &Sigma; i = 1 N &xi; i ) + J ( d )
S.t
y i ( &Sigma; i = 1 N w i &phi; ( x i ) + b ) &GreaterEqual; 1 - &xi; i , &xi; > 0 , d > 0
其中,
Figure BDA0000433679980000045
相应的符号表示意义同上面所述。为了解上述最优化问题,本发明采用的技术方案如下:
第一步:根据公式1.4,得到上述最优化结构的对偶问题
公式1.5
W ( d ) = max a 1 T a - 1 2 a T YK d Ya + J ( d )
S.t
1TYa=0,0≤a≤C
第二步:根据对偶问题的形式,即公式1.5,固定d解上述问题得到对偶变量a
第三步:根据第二步结果,固定a,用投影梯度下降算法得到d,不断迭代直到满足终止条件,目标函数可以写成
公式1.6
M ( d ) = 1 2 d &prime; Qd + 1 &prime; &alpha; - 1 2 &alpha; T YK d Y&alpha; + J ( d ) .
在第k+1次迭代,我们采取二阶梯度下降算法去更新系数d的线性组合通过以下公式:
公式1.7
d k + 1 = d k - &epsiv; k &dtri; 2 G ,
其中,ε是算法的学习速率,
Figure BDA0000433679980000053
是更新方向,值得注意的是Q不是满秩矩阵,为了避免数值不稳定问题,我们定义Q=Q+τE,在本发明实验中τ=10-6

Claims (1)

1.一种域适应学习的最优核组合选择方法,其特征在于包括以下步骤:
步骤1、将辅助域与目标域的样本映射到高维空间中通过假设检验的方法判断两样本服从同一分布的概率,同时,用支持向量机对辅助域与目标域的数据进行经验结构风险最小化;
步骤2、构建以多核系数为参数的目标函数,将求解出核组合系数,并且能够得到分类器的参数,目标函数具体如下:
Figure FDA0000433679970000011
其中,
Figure FDA0000433679970000012
单调函数,P(η<t)是两个样本在映射后的空间服从同一分布的概率,λ为平衡因子,ψ为以多核组合系数为参数的结构风险函数,其中
Figure FDA0000433679970000013
目标函数的约束条件: y i ( &Sigma; i = 1 N w i &phi; ( x i ) + b ) &GreaterEqual; 1 - &xi; i , &xi; > 0 , b > 0
公式中w是垂直于超平面的向量、b为标准支持向量机的位移参数;
Ω是对核组合系数的约束函数,φ为映射函数,其中,P(η<t)=dQd,d为核组合系数,yi={-1,+1}表示样本的标签属性,ξi是松弛变量,Q为以正负样本构建的MMD平方协方差矩阵,即是以下变量的协方差矩阵:
公式中η的含义DA为辅助域数据,DT为目标域数据。
CN201310669455.8A 2013-12-10 2013-12-10 一种域适应学习的最优核组合选择方法 Pending CN103605813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310669455.8A CN103605813A (zh) 2013-12-10 2013-12-10 一种域适应学习的最优核组合选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310669455.8A CN103605813A (zh) 2013-12-10 2013-12-10 一种域适应学习的最优核组合选择方法

Publications (1)

Publication Number Publication Date
CN103605813A true CN103605813A (zh) 2014-02-26

Family

ID=50124035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310669455.8A Pending CN103605813A (zh) 2013-12-10 2013-12-10 一种域适应学习的最优核组合选择方法

Country Status (1)

Country Link
CN (1) CN103605813A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102917A (zh) * 2014-07-03 2014-10-15 中国石油大学(北京) 域自适应分类器的构造及数据分类的方法和装置
CN107045640A (zh) * 2017-03-31 2017-08-15 南京邮电大学 一种用于图像识别的基于邻域保持和核子空间对齐的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049990A1 (en) * 2003-08-29 2005-03-03 Milenova Boriana L. Support vector machines processing system
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049990A1 (en) * 2003-08-29 2005-03-03 Milenova Boriana L. Support vector machines processing system
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOHN BLITZER等: "Domain adaptation with coupled subspaces", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
丁子春: "基于支持向量机的多领域自适应分类方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102917A (zh) * 2014-07-03 2014-10-15 中国石油大学(北京) 域自适应分类器的构造及数据分类的方法和装置
CN104102917B (zh) * 2014-07-03 2017-05-10 中国石油大学(北京) 域自适应分类器的构造及数据分类的方法和装置
CN107045640A (zh) * 2017-03-31 2017-08-15 南京邮电大学 一种用于图像识别的基于邻域保持和核子空间对齐的方法

Similar Documents

Publication Publication Date Title
Yadan et al. Multi-gpu training of convnets
Ismail et al. A hybrid model of self-organizing maps (SOM) and least square support vector machine (LSSVM) for time-series forecasting
CN105550744A (zh) 一种基于迭代的神经网络聚类方法
CN106779087A (zh) 一种通用机器学习数据分析平台
CN106503731A (zh) 一种基于条件互信息和K‑means的无监督特征选择方法
CN108875933B (zh) 一种无监督稀疏参数学习的超限学习机分类方法及系统
CN103345656A (zh) 一种基于多任务深度神经网络的数据识别方法及装置
CN102521656A (zh) 非平衡样本分类的集成迁移学习方法
CN106202377B (zh) 一种基于随机梯度下降的在线协同排序方法
CN101833671A (zh) 一种基于支持向量机的表面肌电信号多类别模式识别方法
CN102521605A (zh) 一种高光谱遥感图像波段选择方法
CN104809230A (zh) 一种基于多分类器集成的卷烟感官质量评估方法
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
CN109886403A (zh) 一种基于神经网络模型的工业数据生成方法
Gupta et al. Clustering-Classification based prediction of stock market future prediction
CN104050547A (zh) 一种油田开发规划方案非线性优选决策方法
CN105335619A (zh) 适用于高计算代价数值计算模型参数反分析的协同优化法
CN109284662B (zh) 一种基于迁移学习的水下声音信号分类方法
CN104361365A (zh) 一种抽油泵运行状态识别方法及装置
CN114897155A (zh) 一种用于卫星的集成模型无数据压缩方法
CN104156628A (zh) 一种基于多核学习判别分析的舰船辐射信号识别方法
Kim et al. Knowledge extraction and representation using quantum mechanics and intelligent models
CN103605813A (zh) 一种域适应学习的最优核组合选择方法
CN103605493A (zh) 基于图形处理单元的并行排序学习方法及系统
Rethik et al. Attention Based Mapping for Plants Leaf to Classify Diseases using Vision Transformer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140226

RJ01 Rejection of invention patent application after publication