CN109284375A

CN109284375A - 一种基于原始数据信息保留的域自适应降维方法

Info

Publication number: CN109284375A
Application number: CN201811047861.XA
Authority: CN
Inventors: 马争鸣; 光毓; 欧阳效源
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-01-29

Abstract

本发明涉及机器学习中域自适应相关问题，提出了一种基于原始数据信息保留的域自适应降维算法。为了减少源域和目标域之间的分布差异，本发明同时匹配了源域和目标域之间的类条件概率分布和边缘概率分布，并利用源域标签构造源域数据的局部和非局部几何结构，在降维过程中保持这两种几何结构不变；同时，由于域自适应的任务是学习目标域数据的标签，保持目标域数据的原始信息也十分重要，本发明利用目标域方差最大化来保留目标域原始信息。在源域和目标域上分别学习投影矩阵，把数据投影到一个低维潜在空间中，使数据有新的降维表示。

Description

一种基于原始数据信息保留的域自适应降维方法

技术领域

本发明涉及面向机器学习领域的域自适应技术，具体是一种域自适应降维学习方法。

背景技术

传统的机器学习方法假设训练数据和测试数据是从同一域或同一特征空间收集的，但在许多实际应用中，数据来自于不同的特征空间，各域之间的数据或其统计特性不断变化。以跨语言文档分类为例，由于词汇不同，英语文档与德语文档不具有相同的表示形式，数据的分布并不匹配。为了解决上述问题，提出了域自适应学习的思想，将数据跨域关联起来。在域自适应学习方法中，存在源域和目标域，源域具有较多的带标签的样本，目标域的样本带有很少的或基本没有标签信息。源域和目标域具有不同却相关的分布。域自适应学习的任务就是最大限度地减少域间数据分布差异及最大可能地探索目标域数据的标签。

域自适应学习的研究现状中，可以分为三种类型：基于变权的方法，基于目标域自标记的方法和基于特征/投影的方法。基于变权的方法通过重新加权或选择一些特殊的实例来改进模型，重新加权或选择的标准是：如果源域某些样本和目标域样本相似度很高，就分配给它们较大的权重，反之，则分配较小的权重。但如何选择合适的样本并为它们分配合适的权重仍是一个棘手的问题。基于目标域自标记的方法需要为数据添加伪标签来建模，通常包括三个步骤：首先，为目标域的样本添加伪标签；然后根据一个准则删除或添加一些源域样本，从而使源域和目标域之间概率分布更加接近；第三步是重复上述步骤，直到满足解决方案所需的收敛条件为止。但如何获得高质量的伪标签以及在处理大数据时由于迭代引起的处理速度慢是其缺点。基于特征/投影的方法弥补了上述两种方法的不足，它假设源域和目标域之间存在一个共享的潜在空间，在这个空间中，域间数据分布差异最小。因此如何衡量域之间的概率分布差异是一个主要问题。在当前的研究中，主要有基于熵的Kullback-Leibler距离和最大均值差异(Maximum Mean Discrepancy简称MMD)两种方法来度量距离。MMD方法是一种无参估计的方法。本发明采用MMD对域间差异进行衡量。TCA(文献1 Pan SJ，Tsang I，Kwork J et al(2011)Domain adaptation via transfer componentanalysis.IEEE Trans Neural Netw 22：199-210)在再生核希尔伯特空间利用MMD距离度量方法学习域间的转移成分，利用转移成分张成的子空间保持数据的特性并且限制域间概率分布差异最小。但是TCA只简单考虑了分布的均值，在此基础上提出的IGLDA(文献2Jiang M，Huang W，Huang Z et al(2017)Integration of global and local metricsfoe domain adaptation learning via dimensionality reduction.IEEE Trans Cybern47(1)：142-152)算法，把源域和目标域的数据投影到一个子空间。在这个子空间中，不仅利用MMD降低了源域和目标域间的概率分布差异，同时保持源域数据的局部信息，利用这两个性质学习转移成分。

域自适应学习中还有一部分采用基于流形的方法。Gopalan等人提出了GFS方法(文献3 Gopalan R，Li R，Chellappa R(2011)Domain adaptation for objectrecognition：an unsupervised approach.In：Proc IEEE Int Conf Comput Vis，pp 999-1006)，在格拉斯曼流形上，源域和目标域主成分之间建立测地线，在测地线上采样一些点就得到了源域和目标域之间数据的表示，这些数据可以看成是从源域到目标域的一个中间域上的数据。利用这些中间域数据缩小分布差异，逐步适应目标域数据。之后，Gong等人对GFS方法进行了改进，得到了GFK方法(文献4 Gong B，Shi Y，Sha F et al(2012)Geodesicflow kernel for unsupervised domain adaptation.In：Proc IEEE Comput Soc ConfComput Vis Pattern Recognit，2012：2066-2073)，该方法并不是在测地线上采样有限的点，而是利用测地线上的所有点得到一个核函数。

发明内容

本发明的目的在于提供一种域自适应降维学习方法。本发明的技术方案是，同时减少源域和目标域间的边缘概率分布差异和类条件概率分布差异，并利用源域给出的标签信息在降维过程中保持数据的局部几何和非局部几何结构不变，且最大可能地保留目标域的原始数据信息。该发明分别学习源域和目标域的投影矩阵，将样本实例投影到一个新的低维空间中，构造新的数据特征表示。本发明具体内容如下：

(1)最小化源域和目标域间边缘分布差异：源域和目标域分别学习一个投影矩阵，把特征空间的数据投影到一个d维的潜在空间，在这个潜在空间中，源域边缘概率分布和目标域边缘概率分布之间的差异要求最小，用MMD来衡量域间概率分布差异。

(2)最小化源域和目标域间类条件概率分布差异：仅仅最小化边缘概率分布差异并不能精确的描述两个域之间的分布差异，随后最小化域间的类条件概率分布差异。之前提到，源域数据有标签而目标域数据没有或只有很少部分有标签，本发明为目标域数据添加伪标签，具体的方法是，用简单的最近邻分类器在原始源域数据上训练分类器并应用于目标域数据，得到目标域数据的标签信息即为目标域数据的伪标签。

(3)源域局部/非局部几何结构保持：利用源域标签信息构造数据的局部和非局部几何结构，在降维过程中保持这部分特性不变。具体的做法是，首先定义数据的局部相似性矩阵和非局部相似性矩阵，使同类且距离近的原始实例样本降维后在低维空间能够形成一簇，不同类且距离远的原始实例样本点之间的距离在降维后能够尽可能大。

(4)目标域原始信息保留：我们希望降维之后的目标域数据能尽可能多的保留原始数据的信息，这个要求通过使降维后数据的协方差矩阵对角化来达成。

(5)联合上述(1)-(4)，构建目标函数，优化求解步骤，得到源域和目标域的投影矩阵。对于输入样本点x进行投影，完成降维任务。

本发明的特点及其意义：

(1)提出了一种新的域自适应降维方法。充分利用了源域数据的标签信息构造数据的局部/非局部几何结构。通过在源域和目标域分别学习一个投影矩阵，能更好的匹配域间数据的分布差异。

(2)具有较好的适用性。通过对数据进行建模，可以对新来数据点进行降维。

(3)模型构造简单，计算复杂度较小，物理意义直观。

附图说明

图1：域自适应降维方法流程图。

具体实施方式

本发明主要提供一种域自适应降维学习方法。本发明的技术方案是，把源域数据和目标域数据投影到一个低维空间，使得源域和目标域之间概率分布差异最小，在降维过程中分别学习源域和目标域的投影矩阵，并保持源域数据的局部/非局部几何结构及最大化目标域的方差。下面介绍本发明的具体原理。

1、令表示N_s个D维的源域样本，表示N_t个同样维度的目标域样本，表示源域中样本标签为c类的样本，共有N_(s，c)个，总的样本类别为C类，W_s∈R^D×d，W_t∈R^D×d分别为源域和目标域的投影矩阵，d是降维后的维度。令是的标签，i＝1，…，N_s。令是的伪标签，i＝1，…，N_t。源域降维后数据为目标域降维后数据为Γ_N为全一的列向量，下标表示向量的长度。

2、使域间边缘概率分布最小化：用MMD来度量源域边缘概率分布P_s(x_s)和目标域边缘概率分布P_t(x_t)之间的差异，即计算降维后源域数据和目标域数据的均值之间的距离并使之最小。两者之间的边缘概率分布差异表示如下：

其中，

最小化域间边缘概率分布差异：

3、使域间类条件分布最小化：首先为目标域数据添加伪标签，用简单的最近邻分类器在原始源域数据上训练分类器并应用于目标域数据，得到目标域数据的标签信息即为目标域数据的伪标签。令是降维后源域类别为c的数据，是降维后目标域类别为c的数据表示，利用MMD使得降维后同类的源域数据和目标域数据之间的距离最小。两者之间的类条件概率分布差异表示如下：

其中X(t，c)表示为目标域数据添加伪标签后类别为c的实例样本，M_c(i，j)表示如下：

最小化域间类条件概率分布差异：

4、保持源域数据的局部/非局部几何结构降维后不变：具体地表述为，使属于同一类且距离近的原始始数据在低维潜在空间中能够形成一簇，同时不属于同一类且距离远的原始数据在低维空间的距离能够尽可能远。首先介绍如何保持数据的局部几何结构：

第一步，定义局部相似性度量矩阵S，其中的元素为：

其中k₁(i，j)表示x_i是x_j的k近邻点或x_j是x_i的k近邻点。

第二步，通过利用源域投影矩阵W_s，最小化代价函数来保持源域数据的局部几何特性，代价函数如下所示：

其中L_sMin＝D-S，是一个对角矩阵，其对角元素为s_ij的列元素之和。

最小化代价函数：

保持源域数据的非局部几何结构：

第一步：定义非局部相似性度量矩阵E，其元素为：

k₂(i，j)表示x_i不是x_j的k近邻点或者x_j不是x_i的k近邻点。

第二步：通过最大化代价函数保持源域数据的非局部几何结构，代价函数如下所示：

其中L_sMax＝Q-E，是对角矩阵，其对角元素为e_ij的列元素之和。

最大化代价函数：

5、目标域方差最大化：域自适应的目标是获得目标域数据的标签信息，所以能够最大可能地保持目标域数据的原始信息十分重要。通过最大化目标域数据的方差来实现。目标域数据方差表示如下：

其中是中心化矩阵。

最大化目标域数据方差：

6、联合(2)、(4)、(6)、(8)、(10)，使得能够最小化类条件概率分布和边缘概率分布差异，同时在降维后保持源域数据的局部/非局部几何结构不变，并且最大化目标域数据方差。寻找一个投影矩阵Π满足以上的要求，可以得到如下式子：

化简上述式子：

其中

上述的最大化问题可以转化为广义特征值问题：

MΠ＝μNΠ (13)

其中M＝XPX^T，N＝XQX^T.

Π的值由N^-1M特征分解后最大d个特征值对应的特征向量构成。Π得到后，W_s和W_t也就得到了，随之也能够得到降维后的源域数据Y_s和目标域数据Y_t。

Claims

1.一种基于原始数据信息保留的域自适应降维方法，其特征在于：

A.令和分别表示源域和目标域数据样本，其中N_s表示源域样本个数，N_t表示目标域样本个数，D为高维空间的维度；通过匹配降维后源域和目标域之间的类条件概率分布和边缘概率分布差异，分别学习源域投影矩阵W_s和目标域投影矩阵W_t，得到源域和目标域在低维空间中相应的数据表示和其中d(d＜＜D)为低维空间的维度；用最大均值差异(Maximum Mean Discrepancy简称MMD)测量域间的分布差异，源域和目标域间的边缘概率分布差异记为MMD(Y_s，Y_t)；为目标域数据添加伪标签，源域和目标域间类条件概率分布差异为其中和分别表示属于第c类的源域样本和目标域样本，总的类别数为C类；最小化源域和目标域之间的边缘概率分布和类条件概率分布差异；

B.在匹配源域和目标域概率分布差异的同时，在降维过程中保持原始数据的几何结构和数据特征也十分重要，因此，利用源域数据的标签信息构造源域数据的局部/非局部几何结构，在降维过程中保持该几何结构不变；另外使目标域数据方差最大化来尽可能多的保留目标域数据的原始信息；操作步骤如下：

B1.构造源域数据的局部几何相似性矩阵S和非局部几何相似性矩阵E，然后构造相应的代价函数S₁和S₂，通过最小化代价函数函数S₁及最大化函数S₂保持源域数据的局部/非局部几何结构；

B2.目标域数据的方差为其中表示中心化矩阵，最大化目标域数据方差来尽可能保留目标域的原始信息；

结合步骤A、B，匹配数据分布差异的同时保持源域数据的几何结构及目标域数据的原始信息，得到目标函数：

优化目标函数，得到W_s和W_t，对于源域和目标域的输入数据，得到降维表示Y_s和Y_t。