CN108960270A

CN108960270A - 一种基于流形迁移学习的数据标定方法及系统

Info

Publication number: CN108960270A
Application number: CN201810305890.5A
Authority: CN
Inventors: 陈益强; 王晋东; 冯文杰; 忽丽莎
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-12-07

Abstract

本发明涉及一种基于流形迁移学习的数据标定方法和系统，包括：获取已标定标签的特征数据作为源域，获取待标定标签的特征数据作为目标域，对源域和目标域分别进行主成分分析，得到源特征向量和目标特征向量；将源特征向量和目标特征向量分别映射至流形空间，以得到源域在流形空间中的源流形特征和目标域在流形空间中的目标流形特征；统计源域具有的标签种类，并根据标签种类下的特征数据个数，得到每一类标签下源流形特征的平均值，并根据平均值和目标流形特征间的距离，为目标域中的特征数据标定标签。本发明简化了大规模数据的标定，提高了方法的泛化能力，提高了迁移标定的运行效率。

Description

一种基于流形迁移学习的数据标定方法及系统

技术领域

本发明涉及机器学习、迁移学习及数据标定领域，具体涉及一种基于流形迁移学习的数据标定方法及系统。

背景技术

大数据时代产生了大量的人群行为、交通模式、生活数据、健康、办公、医疗等各个方面的用户数据。基于这些大规模的图像、文本、音视频数据，研究人员可以进行更加广泛而深入的分析与应用。同时，工业界也可以基于这些数据，为用户定制更具个性化的服务。然而，尽管这些数据可以很容易地被获取到，但是它们往往都以无标定的形态出现。没有足够的标记，很难对这些数据进行最大程度的利用。并且，通常只能获取这些数据某些侧面的信息(如，不同的图像在不同的光照条件、不同背景、不同视角下往往呈现不同的特征分布)，而无法收集所有方面的数据信息；可获取的数据通常也具有不同的性质：或者具有不同的数据特征维度，或者具有不同的特征分布，又或者具有不同的数据类别。

为了解决这个标定数据的难题，传统的机器学习方法假设训练数据和测试数据均属于同一种数据分布，以此来训练相关的模型，实现数据标定。然而，由于这些数据分布的高动态性和高差异性，传统的机器学习方法对此类问题无法产生具有强泛化能力的求解方案。随着机器学习方法的发展，陆续出现了多视图学习、多任务学习、自学习、流形学习等方法，均可以用于进行不同数据分布下的机器学习。多视图学习从不同角度看待数据的学习目标，用不同的思路对数据进行建模，继而从不同的模型层面，对数据进行表征；多任务学习用不同的模型对数据各自建模，然后通过多个模型的协同更新来描述数据的分布；自学习方法则是通过无监督或半监督的模式自发从数据中学习相关的知识，完成知识的表征；流形学习方法的主要思想是将高维数据映射到低维数据，使低维数据能够反映原高维数据的某些本质结构特征。流形学习的前提是某些高维数据，实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中，揭示其本质。假定数据处于一个高维流形中的低维嵌入，通过数据运算，根据流形特征进行不同数据的相似性匹配。

迁移学习作为机器学习的一大分支，其区别于传统机器学习方法之处在于，通过找寻待标定数据和已知标签数据之间的联系，从已知标签的数据中学习知识，迁移到待标定数据中，完成迁移标定。迁移学习在解决数据分布动态变化、数据维度不一致，以及数据类别不同的问题具有明显的优势。但是，现有的迁移学习方法往往只侧重于解决两方面的问题：或者进行子空间学习，把数据映射到不同的子空间进行不同数据的适配；或者进行概率分布适配，在一个高维空间中最小化已有的标定数据和待求解的目标数据之间的距离。子空间学习方法在学习子空间后，数据特征仍然存在漂移，导致结果不够精确；概率分布适配方法只是在原始特征空间中进行，而原始空间中的特征往往存在扭曲状态，也会导致结果不够精确。

综合上述分析，现存的机器学习和迁移学习方法存在以下不足：

1)传统机器学习：由于在大数据环境中，数据分布往往具有高动态性和高差异性，因此，传统的机器学习方法对于不同数据分布下大规模数据标定的问题不再适用；

2)多视图学习、多任务学习和自学习方法从不同角度来学习待预测的目标，极大地受限于先验知识，即如果没有相关的领域知识，很难对问题进行快速地建模求解。

3)现存迁移学习：子空间迁移学习方法在学习子空间后，数据特征仍然存在漂移，即特征不再服从相同的数据分布，导致结果不够精确；概率分布适配方法只是在原始特征空间中进行，而原始空间中的特征往往存在扭曲状态，即用通常的特征提取方式所提取的特征不能够完整地表示原始数据的特性，也会导致结果不够精确。

因此，急需设计一种能够进行非扭曲特征映射、且可以快速高效进行求解的迁移学习方法。

发明内容

针对上述问题，本发明提出了一种基于流形迁移学习的数据标定方法，其中包括：

步骤1、获取已标定标签的特征数据作为源域，获取待标定标签的特征数据作为目标域，对该源域和该目标域分别进行主成分分析，得到源特征向量和目标特征向量；

步骤2、将该源特征向量和该目标特征向量分别映射至流形空间，以得到该源域在该流形空间中的源流形特征和该目标域在该流形空间中的目标流形特征；

步骤3、统计该源域具有的标签种类，并根据该标签种类下的特征数据个数，得到每一类标签下该源流形特征的平均值，并根据该平均值和该目标流形特征间的距离，为该目标域中的特征数据标定标签。

该基于流形迁移学习的数据标定方法，其中步骤2中该流形空间为格拉斯曼流形空间。

该基于流形迁移学习的数据标定方法，其中通过将该源特征向量和该目标特征向量分别映射至该格拉斯曼流形空间，其中z为该源流形特征或该目标流形特征，x为该源特征向量或该目标特征向量，G的确定方法包括：

P_s为该源特征向量，R_s是和P_s正交的矩阵，T代表矩阵的转置，Λ₁，Λ₂，Λ₃均为对角矩阵，U₁、U₂分别为P_s和R_s的矩阵奇异值分解结果。

该基于流形迁移学习的数据标定方法，其中该步骤3包括：用二值化变量T_ct来标识该目标域中特征数据t是否属于第c类标签，T_ct通过最小化下式得到：

式中d_ct表示该特征数据t到源域数据第c类标签的距离。

该基于流形迁移学习的数据标定方法，其中该特征数据t到源域数据第c类标签的距离d_ct的计算方法包括：

式中zt为该特征数据t在流形空间中的特征，S_c为该平均值。

本发明还提出了一种基于流形迁移学习的数据标定系统，其中包括：

主成分分析模块，用于获取已标定标签的特征数据作为源域，获取待标定标签的特征数据作为目标域，对该源域和该目标域分别进行主成分分析，得到源特征向量和目标特征向量；

流形空间映射模块，用于将该源特征向量和该目标特征向量分别映射至流形空间，以得到该源域在该流形空间中的源流形特征和该目标域在该流形空间中的目标流形特征；

标签标定模块，用于统计该源域具有的标签种类，并根据该标签种类下的特征数据个数，得到每一类标签下该源流形特征的平均值，并根据该平均值和该目标流形特征间的距离，为该目标域中的特征数据标定标签。

该基于流形迁移学习的数据标定系统，其中流形空间映射模块中该流形空间为格拉斯曼流形空间。

该基于流形迁移学习的数据标定系统，其中通过将该源特征向量和该目标特征向量分别映射至该格拉斯曼流形空间，其中z为该源流形特征或该目标流形特征，x为该源特征向量或该目标特征向量，G的确定方法包括：

该基于流形迁移学习的数据标定系统，其中该标签标定模块包括：用二值化变量T_ct来标识该目标域中特征数据t是否属于第c类标签，T_ct通过最小化下式得到：

式中d_ct表示该特征数据t到源域数据第c类标签的距离。

该基于流形迁移学习的数据标定系统，其中该特征数据t到源域数据第c类标签的距离d_ct的计算方法包括：

式中z_t为该特征数据t在流形空间中的特征，S_c为该平均值。

相比于现有技术，本发明通过以下3点技术特征，简化了大规模数据的标定，提高了方法的泛化能力，提高了迁移标定的运行效率：

1、本发明运用迁移学习的方法解决不同数据分布下大规模数据的标定问题，不同于传统的机器学习方法先对源域建立模型再直接对同一领域的目标域进行预测，而是利用迁移学习的思想，将从源域中学习到的知识迁移到其他领域的目标域，进而完成数据标定。

2、基于流形迁移学习的大规模数据标定系统。首先，对原始数据进行非扭曲的流形映射，使得后续对目标域的特征适配更具有紧致性；然后，通过简单高效的线性规划适配方法，学习目标域的最终标签。

3、目标域协同适配的高效线性规划方法。本发明提供的线性规划方法对比其他现有的概率分布适配方法，可以更加简洁高效地求解目标域的标签。同时，本法明的线性规划方法，在可以获得更精准的目标域标签的前提下，不需要任何参数设定，方法本身不需要参数而提高精度的方法：流形变换，消除了特征扭曲；目标域协同适配，构建了非扭曲特征下的模型，所以精度高。

附图说明

图1为流形迁移学习方法的主要步骤示意图；

图2为流形迁移学习方法与对比方法的精度对比图。

具体实施方式

本发明提出了一种基于流形迁移学习的数据标定方法，其中包括：

式中d_ct表示该特征数据t到源域数据第c类标签的距离。

式中z_t为该特征数据t在流形空间中的特征，S_c为该平均值。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明设计了一种用于数据标定的流形迁移学习方法。为了统一起见，在迁移学习中，将已有标签的数据称为源域，待标定标签的数据称为目标域。利用源域的标签知识，来为目标域分配标签，就是一个迁移学习过程，源域和目标域是不同的两个领域。应用可以是：跨领域的图像识别、跨位置/用户的行为识别、不同语言之间的相互翻译等。本法明设计的流形迁移学习方法如图1所示。该方法主要包括两个部分：流形特征变换和目标域协同适配。流形特征变换的目的是，通过进行流形映射，消除特征扭曲，从而使得学习(分类)目标域标签时，模型的泛化能力得到增强。第二个阶段是目标域协同适配，此阶段的目的是，利用变换后的数据具有的流形性质，通过线性规划或者其他数据适配方法，得到目标域的标签。

本发明不限于上述方法，流形特征变换阶段，可以使用不同的流形映射方法如多尺度变换、等距离映射、拉普拉斯特征映射等；目标或协同适配阶段，除去实施例中的线性规划方法外，还可以使用概率分布适配方法如迁移成分分析、联合分布适配等方法。通过使用不同的方法，本发明提供的框架可以灵活地根据不同的问题，灵活定制。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的流形迁移学习方法及系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

基于流形迁移学习的大规模数据标定方法主要包括两个步骤：步骤1，流形特征映射；步骤2，线性规划适配。在下面的叙述中，用x来表示特征，y表示标签。

步骤1、流形特征变换：

由于在流形空间中的特征通常都有着很好的几何性质，可以避免特征扭曲，因此首先将原始空间下的特征变换到流形空间中。原始数据所在的空间也叫欧几里得空间，简单说就是包含原始数据的空间。在众多已知的流形中，流行空间例如格拉斯曼流形G(d)可以通过将原始的d维子空间(特征向量)看作它基础的元素，从而可以帮助学习分类器。在格拉斯曼流形中，特征变换和分布适配都有有效的数值形式，因此在迁移学习问题中可以被很高效地表示和求解。因此，利用格拉斯曼流形空间中来进行迁移学习是可行的。本发明除了可以使用格拉斯曼流形还可使用黎曼流形、高斯流形等其他流形空间。

现存有很多方法可以将原始特征变换到流形空间中。在现存的这些方法中，选择测地线流式核方法(Geodesic Flow Kernel,GFK)，完成流形特征变换，因为GFK有着很好的计算高效性。下面介绍它的基本思想。

在学习流形特征变换时，用d维子空间来对源域和目标域的特征数据进行建模，然后将这些子空间嵌入到流形G中。模型起到映射的作用，根据映射完成嵌入。用和分别表示源域和目标域经过主成分分析(PCA)之后的子空间(特征向量)，则G可以视为所有的d维子空间的集合。每一个d维的原始子空间都可以被看作G上的一个点。因此，在两点之间的测地线{Φ(t):0≤t≤1}可以在两个子空间之间构成一条路径，φ(t)代表第t维子空间。如果令则寻找一条从Φ(0)到Φ(1)的测地线就等同于将原始的特征变换到一个无穷维度的空间中，最终减小域之间的漂移现象。将原始特征变换到了无穷维空间，无穷维空间就是流形空间。这种方法可以被看作是一种从Φ(0)到Φ(1)的增量式“行走”方法。特别地，流形空间中的特征可以被表示为z＝Φ(t)^Tx。T代表矩阵的转置，z是以向量形式表示的特征。换后的特征z_i和z_j的内积定义了一个半正定(positivesemidefinite)的测地线流式核：

因此，通过在原始空间中的特征就可以被变换到格拉斯曼流形空间中。核G可以通过矩阵奇异值分解来有效地计算。然后，将会进行自适应分布适配，最终在格拉斯曼流形空间进行目标域标签的学习。

G的计算方式：

其中：

P_s是源域数据经过主成分分析后的结果，R_s是和P_s正交的矩阵。

用P_t表示目标域数据经过主成分分析后的结果，则

其中的U₁，U₂用矩阵的奇异值分解可以直接得出。

Λ₁，Λ₂，Λ₃都是对角矩阵，它们的元素值分别根据下式确定：

其中的i对应于元素的下标，θ_i是Γ这一对角矩阵每个元素的反正弦值。

2、目标域协同适配

获取到流形特征变换后，下一个步骤是进行目标域协同适配，从而获取目标数据的标签。具体而言，对于目标域数据的每一个样本(目标域中已标记的特征)而言，其只能属于C个类别中的一个；并且，要保证每一个类别c都在目标域数据中出现：即目标域的类别个数和源域中的类别个数完全一致。

本法明将这个问题看作一个线性规划的问题，并且用行之有效的方法加以解决。具体来说，用一个二值化变量T_ct∈{0,1}来标识目标域样本t是否属于第c个类别：如果属于，则T_ct＝1；否则T_ct＝0。然后，学习目标便转化为了求解所有的T_ct的值。这可以通过最小化以下式子来实现：

其中，S_c表示源域数据中的第c类数据的平均值，即

其中，y_i是源域数据中第i个样本的标签，z_i是源域数据中第i个样本在流形空间中的特征，I()函数是一个指示函数：当括号中的条件成立时，函数值为1，否则为0。n_c表示源域数据中属于第c类标签的样本个数。

式中的d_ct表示目标域的第t个样本到源域数据的第c个类别的距离，其值由下式给出：

式中z_t是目标域数据中第t个样本在流形空间中的特征。

上式可以由基本的线性规划工具包高效进行求解。求得T_ct的值后，进行标签值的还原。由于T_ct是一个二值化矩阵，因此，第t个样本的实际标签为使得第c个T_ct为1的列数值。

初步实验结果。为了验证本法明的流形迁移学习方法的有效性，在几个公开数据集中进行了实验。

数据集：采用Office+Caltech数据集。这个数据集是迁移学习研究领域公认的经典数据集。Office是视觉迁移学习的主流基准数据集，包含3个对象领域Amazon(在线电商图片)、Webcam(网络摄像头拍摄的低解析度图片)、DSLR(单反相机拍摄的高解析度图片)，共有4,652张图片31个类别标签。Caltech-256是对象识别的基准数据集，包括1个对象领域Caltech，共有30,607张图片256个类别标签。对每张图片抽取SURF特征，并向量化为800维的直方图表征，所有直方图向量都进行减均值除方差的归一化处理，直方图码表由K均值聚类算法在Amazon子集上生成。具体共有4个领域C(Caltech-256),A(Amazon),W(Webcam)和D(DSLR)，从中随机选取2个不同的领域作为辅助领域和目标领域，则可构造4×3＝12个跨领域视觉对象识别任务，如A→D,A→C,…,C→W。

对比方法：本法明采用以下对比方法：主成分分析、迁移成分分析、测地线流式核方法、迁移联合匹配、散度成分分析、以及适配正则方法。这些方法都是迁移学习领域较为经典的方法。与这些方法进行对比，可以全面反映出本法明的优势。

评价标准：选择目标域上的分类精度作为方法性能评价的准则，它已被广泛应用于大量迁移学习相关方法的评测中。该精度由下列公式计算得出：

其中，y(x)和分别是目标域的真实和预测标签，D_t是目标域，x是样本。

实验结果如表1和图2所示。从表中可以看出，本法明的流形迁移学习方法相比于其他6种对比方法而言，其总体的平均精度居于领先位置。特别地，相比于只进行流形学习的测地线流式核方法，本法明的方法平均精度领先约4％；相比于只进行概率分布适配的迁移成分分析方法，本法明的方法平均精度领先约1％。相比于其他几种方法，本法明的方法也同样具有很大的优势。

表1迁移学习实验结果：

以下为与上述方法实施例对应的系统实施例，本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效，为了减少重复，这里不再赘述。相应地，本实施系统中提到的相关技术细节也可应用在上述实施方式中。

式中d_ct表示该特征数据t到源域数据第c类标签的距离。

式中z_t为该特征数据t在流形空间中的特征，S_c为该平均值。

虽然本发明以上述实施例公开，但具体实施例仅用以解释本发明，并不用于限定本发明，任何本技术领域技术人员，在不脱离本发明的构思和范围内，可作一些的变更和完善，故本发明的权利保护范围以权利要求书为准。

Claims

1.一种基于流形迁移学习的数据标定方法，其特征在于，包括：

2.如权利要求1所述的基于流形迁移学习的数据标定方法，其特征在于，步骤2中该流形空间为格拉斯曼流形空间。

3.如权利要求2所述的基于流形迁移学习的数据标定方法，其特征在于，通过将该源特征向量和该目标特征向量分别映射至该格拉斯曼流形空间，其中z为该源流形特征或该目标流形特征，x为该源特征向量或该目标特征向量，G的确定方法包括：

4.如权利要求1所述的基于流形迁移学习的数据标定方法，其特征在于，该步骤3包括：用二值化变量T_ct来标识该目标域中特征数据t是否属于第c类标签，T_ct通过最小化下式得到：

式中d_ct表示该特征数据t到源域数据第c类标签的距离。

5.如权利要求4所述的基于流形迁移学习的数据标定方法，其特征在于，该特征数据t到源域数据第c类标签的距离d_ct的计算方法包括：

式中zt为该特征数据t在流形空间中的特征，S_c为该平均值。

6.一种基于流形迁移学习的数据标定系统，其特征在于，包括：

7.如权利要求6所述的基于流形迁移学习的数据标定系统，其特征在于，流形空间映射模块中该流形空间为格拉斯曼流形空间。

8.如权利要求7所述的基于流形迁移学习的数据标定系统，其特征在于，通过将该源特征向量和该目标特征向量分别映射至该格拉斯曼流形空间，其中z为该源流形特征或该目标流形特征，x为该源特征向量或该目标特征向量，G的确定方法包括：

9.如权利要求6所述的基于流形迁移学习的数据标定系统，其特征在于，该标签标定模块包括：用二值化变量T_ct来标识该目标域中特征数据t是否属于第c类标签，T_ct通过最小化下式得到：

式中d_ct表示该特征数据t到源域数据第c类标签的距离。

10.如权利要求9所述的基于流形迁移学习的数据标定系统，其特征在于，该特征数据t到源域数据第c类标签的距离d_ct的计算方法包括：

式中z_t为该特征数据t在流形空间中的特征，S_c为该平均值。