CN107895177A

CN107895177A - 一种保持图像分类稀疏结构的迁移分类学习方法

Info

Publication number: CN107895177A
Application number: CN201711143495.3A
Authority: CN
Inventors: 赵丹; 汪云云
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2018-04-10
Anticipated expiration: 2037-11-17
Also published as: CN107895177B

Abstract

本发明公开了一种保持图像分类稀疏结构的迁移分类学习方法，找到两个分布相近但不同的源域和目标域，源域包含有标签数据，首先在源域上利用监督分类方法训练分类器，并利用该分类器预测目标域数据的伪标签；其次，利用最大均值差异分别构造源域和目标域数据的边缘分布和条件分布项，将二者组合构成联合分布项；然后，利用有效投影的稀疏学习工具包构造所有数据上的稀疏表示矩阵S以构造稀疏结构保持项；接着，利用结构风险最小化原则构造结构风险最小化项；最后，将结构风险最小化项、联合分布项以及稀疏结构保持项结合起来构造统一的迁移分类学习框架，并利用包含核函数的分类函数表示定理代入框架求解获得最终可用于预测目标域类别的分类器。

Description

一种保持图像分类稀疏结构的迁移分类学习方法

技术领域

本发明涉及机器学习中迁移学习分类技术领域，尤其涉及一种保持图像分类稀疏结构的迁移分类学习方法。

背景技术

传统的机器学习有两个基本假设，一个是测试样本和训练样本应该满足独立同分布，其二是需有足够可利用的训练样本。但是往往这两个条件不容易满足，因此迁移学习应运而出，迁移学习是运用已经知道的内容知识对相关但是不同的领域进行求解的方法。运用在一个领域已经知道的知识，来解决学习目标领域仅有少量标签样本甚至于没有标签样本的问题。往往两个领域差异越小，共享的因素越多，迁移学习会相对更加容易和精准。

图像分类在今天的社会具有极大的潜力，比如人脸分类，场景分类等。场景分类能够提供非常有效地场景信息，用于指导如行为检测，目标识别之类的机器视觉任务，如：机器人要完成抓取办公桌上水杯的任务，我们可以先进行场景类别检索，找到办公室场景，再在这个场景中查找水杯。这样检索工作会简单。而提供有效地场景图片分类方法则是能够使得机器人快速响应并完成工作的重要之处。因此高效的图像分类方法可以应用在诸多工作中。

稀疏编码是一种特征表示的方法。稀疏重构可以保持数据的全局信息和几何结构。稀疏矩阵中绝大多数元素都为0，稀疏编码目的是求解少量的能代表低层特征信息基向量的系数,也就是说用其他基向量的线性组合来表示输入向量。进行重新构成，假设X＝[x₁，x₂，……，x_n]为一个字典矩阵。其中x_i是m维的列向量。稀疏表示的目的是用尽可能少的X中的项去重新表示每一个x。因此对于我们需要的稀疏矩阵S来说。就是要求该矩阵中的非零元素尽可能的少。这是一个l0范数问题。但是由于l0是一个非确定多项式(NP-hard)的非凸优化问题，不好求解。因此稀疏编码大部分都是采用l 1范数(求取所有元素的绝对值之和)来解决的。又因为在大多数实际问题中，信号或者图像x一般是有噪声的，因此加入容错率ε。公式如下：

s.t.||x_i-Xs_i||＜ε

1＝1^Ts_i

s_i为列向量。由s_i组成的权重矩阵S可以反映出输入数据的固有几何特性，判别信息可以自然的保存在权重矩阵S中。给一个属于j类别的图像j＝1，……，c，权重向量s_i＝[0,......，α_i,i-1,0,α_i,i+1,......，0]^T，则理论上(图像识别中假设属于同一类的样本位于同一个线性子空间)可以被同属于j类别的其他图像线性表示表示：

在这里即s_i中的非零项与j类别中的样本是有关联的。

结合结构最小化原则构造函数和熵正则化，期望正则化和流形正则化。可以得到混合正则化的迁移学习框架。然后将混合正则化框架作用于源，目标域上。最终得到用于目标域上的迁移分类器。但是由于使用流形正则化刻画的是局部的结构信息，这种正则化框架对于图像的分类效果并不能让人十分满意。

发明内容

本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷，提供一种保持图像分类稀疏结构的迁移分类学习方法。

本发明为解决上述技术问题采用以下技术方案：

一种保持图像分类稀疏结构的迁移分类学习方法，包括以下步骤：

步骤1)，采集源域图像数据、源域图像标签与目标域图像数据，所述源域图像数据和目标域图像数据的特征空间相同；

步骤2)，利用源域图像数据和源域图像标签训练得到监督分类器，使用目标域图像数据在监督分类器上得到目标域图像伪标签；

步骤3)，利用SLEP工具包导入源域图像数据和目标域图像数据组成的所有数据，得到用于刻画所有数据结构特性的稀疏矩阵S；

步骤4)，使用源域图像数据、源域图像标签、目标域图像数据、目标域图像伪标签构造第一分类器约束项，即联合分布项，以减少源域图像数据和目标域图像数据的分布差异；

步骤5)，使用源域图像数据、目标域图像数据和稀疏矩阵S构造第二分类器约束项，即稀疏结构保持项，以保持所有数据的结构特性；

步骤6)，使用源域图像数据、源域图像标签构造第三分类器约束项，即结构风险最小化项，以减少源域图像标签和本方法源域图像预测标签之间的差异；

步骤7)，将联合分布项、稀疏结构保持项、结构风险最小化项组合构成分类器约束框架；

步骤8)，给定带有分类器系数α的预测分类器公式，将分类器公式带入分类器约束框架中，此时分类器约束框架为关于分类器系数α的函数，求解得到分类器系数α、即得到最终的预测分类器后输入目标域图像数据，得到目标域图像预测标签，完成目标域图像数据分类任务。

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，所述步骤1)的详细步骤如下：

步骤1.1)，采集源域图像数据和源域图像标签；

令源域图像数据集合D_s为源域所有图像x_i的集合，图像x_i的维数为D，其中，i＝1,2,3……n，n为源域图像数据中图像的张数；

令源域图像标签集合Y_s为源域图像数据集合D_s中各幅图像对应的标签数据的数据集，y_i为x_i对应的标签；

令Y_s数据集中包含C种类别，y_i的取值为1到C，C为小于等于n的自然数；

令源域图像数据集合D_s中属于第c种类别的数据组成的集合为D_s ^(c)，1<＝c<＝C，且c为整数，则D_s ^(c)包含n^(c)个数据点，D_s由属于所有类别的D_s ^(c)组成，n＝n⁽¹⁾+n⁽²⁾+…+n^(C)；

步骤1.2)，采集目标域图像数据；

令目标域图像数据集合D_t为目标域图像x_j的集合，图像x_j的维数是D，j＝n+1,n+2,n+3……n+m，m为目标域图像数据中图像的张数，目标域与源域的特征空间相同。

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，所述步骤2)的详细步骤如下：

步骤2.1)，利用源域图像数据和源域图像标签，使用SVMs监督方法训练并使用拉格朗日乘子法求解，得到监督学习分类器；

步骤2.2)，将目标域图像数据集合D_t代入所述监督学习分类器中，输出目标域每幅图像数据的伪标签

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，所述步骤4)的详细步骤如下：

步骤4.1)，构造边缘分布项；

步骤4.1.1)，先使用MMD，即最大均值差异方法来规范映射后图像数据的分布以构造边缘分布的雏形；

雏形构造如下：

其中，H为再生核希尔伯特空间；φ(x_i)和φ(x_j)是将任意属于源域或者目标域的图像数据映射到再生核吉尔伯特空间后的数据；

步骤4.1.2)，将对映射的选取变换成对预测分类器f(x)的选取，构造出最终的边缘分布项，完成对预测分类器的选择约束：

其中，P_s为源域的边缘分布，P_t为目标域的边缘分布；

步骤4.2)，构造条件分布项；

步骤4.2.1)，构造每一类c的条件分布项：

对于条件概率分布项，令Q_s代表源域条件分布，Q_t代表目标域条件分布，每一类c的条件分布项如下：

其中，是属于源域中类别c的图像数据集合，x_v是属于类别c的源域图像数据，v∈n，y_v是对应的源域图像标签，f(x_v)是x_v对应的预测标签，是属于目标域中类别c的图像数据集合，x_z是属于类别c的目标域图像数据，z∈m，是对应的目标域图像伪标签，f(x_z)是x_z对应的预测标签，

步骤4.2.2)，再对每一个类别c的条件分布项加和得到最终的条件分布项；

步骤4.3)，根据以下公式将边缘分布项和条件分布项二项归并为联合分布项：

D_f,K(J_s,J_t)＝D_f,K(P_s,P_t)+D_f,K(Q_s,Q_t)

其中，J_s是源域中的联合分布，J_t是目标域联合分布。

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，所述步骤5)中第二分类器约束项构造如下：

其中，S_ru为稀疏矩阵S中位于第r行第u列的项，r＝1,2，……n+m；u＝1,2,……n+m；g为预设的正则项S_f,K(N_s,N_t)的参数；N_s是源域稀疏结构，N_t是目标域稀疏结构。

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，所述步骤6)中第三分类器约束项构造如下：

其中，l(f(x_i,y_i))＝(y_i-f(x_i))²为平方损失函数，σ为预设的收缩正则化参数，用以控制预测分类器复杂度，H_K是属于核空间中的一组预测分类器，l用于测量预测分类器得到的源域图像预测标签f(x_i)和源域图像标签y_i之间的匹配度。

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，所述步骤7)中分类器约束框架构造如下：

其中，λ为预设的D_f,K(J_s,J_t)的正则化参数。

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，所述步骤8)的详细步骤如下：

步骤8.1)，给定带有分类器系数α的预测分类器公式，α＝(α₁......α_n+m)；

令预测分类器公式为f(x_u)＝w^Tφ(x_u)，φ(x_u)是将图像数据x_u映射到再生核希尔伯特空间H后的映射空间中的数据，u为从1到n+m的自然数，w^T为分类器系数；

由于其中，r为从1到n+m的自然数；K(x_r,x_u)＝＜φ(x_r),φ(x_u)＞为映射后空间向量φ(x_r)、φ(x_u)的内积，K(x_r,x_u)的值由高斯核函数得到，σ₁＞0为高斯核的带宽；

则对于源域图像数据和目标域图像数据中任一图像数据x_u的预测分类器公式如下：

步骤8.2)，将预测分类器公式带入分类器约束框架中，此时框架为关于分类器系数α的函数；求解得到分类器系数α，代入预测分类器公式得到最终的预测分类器；

步骤8.2.1)，将预测分类器公式代入框架，得到关于系数向量α的目标函数：

其中，Y₁＝[y₁,……y_n+m]为所有图像的标签矩阵，E为对角标签矩阵，其中若x_u为源域中数据，则E_uu＝1，否则E_uu＝0，E_uu为E矩阵中第u行、第u列的元素，K¹∈R^(n+m)×(n+m)是核矩阵，核矩阵元素K¹ _ru＝K(x_r,x_u)；T＝(I-S-S^T+S·S^T)，

步骤8.2.2)，对带有预测分类器系数向量α的目标函数求解预测分类器系数α，从而得到预测分类器：

对α＝argmin||(Y₁-α^TK¹)E||²+tr(σα^TK¹α+α^TK¹(λM+gT)K¹α)式中α求导并令式子为0,得到α＝((E+λM+gT)K¹+σI)^-1EY₁ ^T，将其代回预测分类器公式，得到用于源域图像数据和目标域图像数据的预测分类器f(x_u)；

步骤8.3)，将目标域图像数据依次输入预测分类器中，得到目标域图像预测标签，完成目标域数据分类工作；

将D_t中的数据x_j(j＝n+1，n+2,……n+m)代入预测分类器f(x_u)(u＝1,2，……n，n+1，……n+m)中，得到目标域D_t中每一个图像数据x_j的图像预测标签f(x_j)，即将u替换成j，完成目标域图像数据分类任务：

作为本发明一种保持图像分类稀疏结构的迁移分类学习方法进一步的优化方案，σ＝0.1，λ＝10，g＝1。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明在利用结构风险最小化原则、减少迁移学习源、目标域分布差异的基础上将比流形正则化更适用于图像分类的稀疏结构保持投影加入迁移学习框架作为正则化项，提升了图像分类的性能，解决了流形正则化在图像分类中效果不理想的缺陷。

附图说明

图1是本发明的流程示意图；

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，本发明公开了一种保持图像分类稀疏结构的迁移分类学习方法，包括以下步骤：

步骤1)，采集源域图像数据、源域图像标签与目标域图像数据，所述源域图像数据和目标域图像数据的特征空间相同：如都采集每幅图像中每个像素点的灰度值作为各个特征值，要求源域图像数据和目标域图像数据的分布不同，比如源域图像和目标域图像的拍摄光照条件不同，要求源域和目标域所含有的标签(类别)是一致的。

步骤2)，使用如支持向量机(SVMs)等方法利用源域图像数据和源域图像标签训练得到监督分类器，利用目标域图像数据在监督分类器上得到目标域图像伪标签；

步骤5)，使用源域图像数据、目标域图像数据和稀疏矩阵S构造第二分类器约束项，即稀疏结构保持项，以保持所有数据的结构特性(稀疏结构特性)；

步骤6)，使用源域图像数据、源域图像标签构造第三分类器约束项，即结构风险最小化项，以减少源域图像标签和本方法源域图像预测标签之间的差异(通过步骤4，源域图像数据和目标域图像数据已经同分布，因此在源域图像数据上训练得到的预测分类器也适用于目标域图像数据)；

所述的步骤1)具体如下：

采集真实情况下的数据，因为用到的是迁移学习，目的是将已有领域的知识迁移到另一个领域中。所以对于源域来说，我们需要源域图像标签用以标记每一个源域图像数据属于哪一类。而对于我们要研究的迁移目标也就是目标域来说，其中图像数据可以有标签，也可以没有标签。我们采集数据的目的是在后面利用源域中的数据和对应的标签，以及目标域中的没有标签的数据来训练适用于目标域的预测分类器，从而达到对与源域数据同特征空间但不同分布的目标域图像数据的分类(得到类别标签)工作。

步骤1.1)，采集源域数据；

源域中包括图像数据集合D_s(n幅图像数据)和每一个图像数据的标签集合Y_s。其中D_s表示源域中的图像数据集合，用n×D的向量表示，是源域图像集中的n幅图像(数据)的集合，每幅图像x_i(i＝1,2,3……n)的维数是D(比如16x16的图像，我们就用D为256的数据点表示这幅图像，其中每个数据点表示这幅图像对应像素点的灰度值)，D_s数据集中每一幅图像(共n幅图像)对应的的标签数据，用一个数据集记录，记作Y_s，用n×1的向量表示，y_i为源域图像标签集合Y_s中与x_i对应的标签，y_i的取值为1到C，假设Y_s数据集中包含C(C<＝n)种类别，D_s中属于第c(1<＝c<＝C,且c为整数)种类别的数据组成的集合表示为D_s ^(c)，表示如下，D_s ^(c)包含n^(c)个数据点，那么D_s由属于所有类别的D_s ^(c)组成，n＝n⁽¹⁾+n⁽²⁾+…+n^(C)；

步骤1.2)，采集目标域数据；

目标域数据由图像集合D_t构成。其中D_t表示目标域中的图像集合，用m×D的向量表示，是目标域图像集中的m幅图像数据的集合，每幅图像x_j(j＝n+1,n+2,n+3……n+m)的维数是D。注：目标域与源域的特征空间是相同的，即如也像源域一样由D为256的256个像素点的灰度值表示一幅图像；目标域与源域所包含的类别也应该一样，即也应包含C类标签。目标域是我们希望用分类器得到每个图像标签的领域。

所述的步骤2)具体如下：

在源域利用监督分类方法，使用源域图像数据集和源域图像标签训练监督学习分类器。

步骤2.1)，使用SVMs(支持向量机)监督方法训练并使用拉格朗日乘子法求解，得到监督学习分类器；

步骤2.2)，将目标域的数据集代入所述监督学习分类器中，输出目标域每幅图像数据的伪标签

因为不是目标域的真实标签，与真实标签可能有差距，所以这里得到的标签称为目标域的伪标签，这里得到伪标签的方式不限于使用SVMs(支持向量机)分类器，任何有效的分类器(例如k近邻分类器，线性判别分类器，朴素贝叶斯分类器等)都可以使用。

所述的步骤3)具体如下：

借助于有效投影的稀疏学习(SLEP)工具包获取输入数据的稀疏矩阵S，我们使用SLEP工具包中的LeastR函数，LeastR函数的输入由源域图像数据和目标域图像数据共同组成，即X＝[D_s，D_t]。将S矩阵初始赋为Z*Z的全0矩阵。再使用sparse函数用一个for循环按从1到Z，这里的Z＝n+m，n为源域中样本个数，m为目标域中样本个数，循环输出。从而得到S_uu为0的(n+m)*(n+m)稀疏矩阵S，其中1<＝u<＝Z,且为整数，S_uu是稀疏矩阵S中第u行第u列的元素，这样的稀疏矩阵S能够帮助实现将全体图像数据集X中的每个样本x_u(标签为y_u)用除自己以外的其他标签也为y_u的图像数据表示的目的(参考背景技术中图像识别里属于同一类的样本位于同一个线性子空间的假设)，挖掘样本之间的关系。

所述的步骤4)具体如下：

因为是针对迁移学习，如步骤1中所述，源域和目标域的分布是不同的，而这不符合传统的机器学习假设，因而我们需要减少源域和目标域之间的分布差异使其服从传统机器学习假设，具体来说就是将源域和目标域的图像数据映射到一个新的空间中，在这个新的空间中，源域和目标域的分布是相同的，我们联合分布项的目的可以说就是寻找这种合适的映射，这里我们研究源域和目标域的边缘分布和条件分布，分别减少源域和目标域之间的边缘分布差异和条件分布差异来使得源域和目标域满足同分布，我们框架的第二部分即是由边缘分布项和条件分布项这两部分组成的联合分布项，通过最小化联合分布项来选取最合适的映射。

步骤4.1)，构造边缘分布项；

雏形构造如下：

其中n为源域中图像数据的个数，m为目标域中图像数据的个数。i为源域中数据的下标，j为目标域中数据的下标，H为再生核希尔伯特空间。

φ(x_i)和φ(x_j)是将任意属于源域或者目标域的图像数据映射到再生核吉尔伯特空间后的数据，通过将所有源域样本Φ(x_i)和的均值和所有目标域样本Φ(x_j)和的均值之差最小化来控制两个域的样本矩。使得源域和目标域边缘分布之差减小来选择合适的映射。

步骤4.1.2)，将步骤4.1.1式子中的φ(x_i)和φ(x_j)换成f(x_i)和f(x_j)，将对映射的选取变换成对预测分类器的选取，从而构造出最终的边缘分布项，完成对预测分类器的选择约束：

P_s为源域的边际分布，P_t为目标域的边缘分布。

步骤4.2)，构造条件分布项；

步骤4.2.1)，构造每一类c的条件分布项；

对于条件分布项。Q_s代表源域条件分布，Q_t代表目标域条件分布，x_s和x_t分别代表源域和目标域图像数据，y_s和y_t分别代表源域图像标签和目标域图像标签。因为Q_s(y_s|x_s)和Q_t(y_t|x_t)难于计算。而当样本数据足够大时候，可以转化成Q_s(x_s|y_s)和Q_t(x_t|y_t)的计算，因此我们需要先有图像标签y，由步骤1知道，源域已有图像标签，而目标域没有图像标签，所以这里使用步骤2得到的目标域图像伪标签。在源域标签，目标域标签(这里是伪标签)都有的情况下，类似步骤4.1.1的方式构造每一类的条件分布项。通过下面的公式我们规范使得属于同一类别标签c的源域图像预测标签均值和目标域的图像预测标签均值之间的差异最小，以此来约束预测分类器的选择，每一类c的条件分布项如下：

其中，是属于源域中类别c的图像数据集合，x_v是属于类别c的源域图像数据，v∈n,y_v是对应的源域图像标签，f(x_v)是x_v对应的预测标签，是属于目标域中类别c的图像数据集合，x_z是属于类别c的目标域图像数据，z∈m,是对应的目标域图像伪标签，f(x_z)是x_z对应的预测标签，

步骤4.3)，构造联合分布项；

我们利用公式：

D_f,K(J_s,J_t)＝D_f,K(P_s,P_t)+D_f,K(Q_s,Q_t)

将步骤4.1和4.2中所述边缘分布项和条件分布项二项归并为联合分布项。其中，J_s是源域中的联合分布，J_t是目标域联合分布。通过最小化该项能够使得源域和目标域的联合分布的差距尽量小来选取预测分类器。

所述步骤5)具体如下：

稀疏矩阵可以用于挖掘数据间的潜在判别信息并通过稀疏重构表示出数据的全局结构信息，进而帮助我们进行分类，稀疏结构保持项雏形构造如下：

其中N_s是源域稀疏结构，N_t是目标域稀疏结构，r＝1,2，……n+m，u＝1,2,……n+m，S_ru为步骤3中得到的稀疏矩阵S中的第r行第u列元素，该式表示由映射后源域和目标域数据共同构成的数据域Φ(X)中的每一个样本Φ(x_r)与由系数为稀疏矩阵S第r列向量s_r对应元素的其他所有样本线性组成的近似样本之差最小。通过最小化该项，对于源域图像数据和目标域图像数据所组成的所有图像数据，在映射后，其中属于同一类的图像数据会位于同一线性子空间(即满足映射前所有数据具有的稀疏表示特性，原理参见背景技术稀疏表示部分)。

将φ(x_r)和φ(x_u)换成f(x_r)和f(x_u)，即得到对预测分类器的约束项也即最终的稀疏结构保持项：

通过最小化该项，达到对预测分类器的约束。

所述步骤6)具体如下：

构造的结构风险最小化项如下：

其中l(f(x_i,y_i))＝(y_i-f(x_i))²为平方损失函数，σ为收缩正则化参数，用以控制预测分类器复杂度。而H_K是属于核空间中的一组预测分类器，l用于测量预测分类器得到的源域图像预测标签f(x_i)和源域图像标签y_i之间的匹配度。通过控制平方损失函数最小使得预测分类器的经验风险尽量小,同时考虑预测分类器复杂度以提升预测分类器的泛化能力，最终使得源域图像预测标签f(x_i)与源域图像标签y_i相近(对于所有x_i)。而通过结构风险最小化项，完成了对预测分类器的约束。

所述步骤7)具体如下：

将步骤4，步骤5，步骤6中得到的联合分布项，稀疏结构保持项，结构风险最小化项组合构成分类器约束框架；

其中，σ，λ和g都是各个部分的正则化参数。我们可以设定σ＝0.1，λ＝10和g＝1。

所述步骤8)具体如下：

给定带有分类器系数α的预测分类器公式，将预测分类器公式带入步骤7得到的分类器约束框架中，此时框架为关于分类器系数α的函数，求解得到分类器系数α，也即得到最终的预测分类器，最后输入目标域图像数据，即得目标域图像预测标签，完成目标域图像数据分类工作；

步骤8.1)，给定带有分类器系数α的预测分类器公式；

假定预测分类器为：f(x_u)＝w^Tφ(x_u)。这里φ(x_u)是将图像数据x_u映射到再生核希尔伯特空间H后的映射空间中的数据，w^T为分类器系数。

这里给出机器学习中常见的表示定理：

其中，u为从1到n+m的自然数，α_r是系数，r为从1到n+m的自然数；K(x_r,x_u)＝＜φ(x_r),φ(x_u)＞为映射后空间向量φ(x_r),φ(x_u)的内积。K(x_r,x_u)的值可由高斯核函数得到，即σ₁为高斯核的带宽，而α＝(α₁……α_n+m)是分类器参数。

则对于源域图像数据和目标域图像数据中任一图像数据x_u的预测分类器公式如下：K(x_r，x_u)由公式和已知图像数据可得，因此仅有所有r从1到n+m的α_r构成的预测分类器系数向量α未知；

步骤8.2)将预测分类器公式带入步骤7得到的分类器约束框架中，此时框架为关于分类器系数α的函数，求解得到分类器系数α，带回预测分类器公式得到最终的预测分类器(输入目标域图像数据，即得目标域图像预测标签)；

步骤8.2.1)，将预测分类器公式代入框架；

代入后得到关于系数向量α的目标函数：

其中Y₁＝[y₁,……y_n+m]为所有图像的标签矩阵，E为对角标签矩阵，其中若x_u为源域中数据，则E_uu＝1，否则E_uu＝0，E_uu为E矩阵中第u行，第u列的元素，使用这个矩阵来达到过滤目标域图像标签的作用，K¹∈R^(n+m)×(n+m)是核矩阵，核矩阵元素K¹ _ru＝K(x_r,x_u),T和M的介绍如下。

我们先给出关于系数向量α的目标函数中的稀疏结构保持项部分α^TK¹TK¹α中T＝(I-S-S^T+S·S^T)的推导过程：

其中，e_u为单位列矩阵，其第u个元素为1，其余元素为0。S为稀疏矩阵，s_u为列向量，代表矩阵S的第u列。Y＝[f(x₁),f(x₂),f(x₃),……f(x_n+m)]，推导结束。然后公式中的

M_c是MMD矩阵。c∈{0,1……C}是类别标号，共C类。其计算如下：

这里n^(c)是源域中属于类别c的数据个数，m^(c)是目标域中属于类别c的数据个数。D_s ^(c)是一组x_v的集合，这里的x_v属于源域图像数据集并且每个x_v的类别标签都是c。同理，D_t ^(c)是一组x_z的集合，其中的x_z属于目标域图像数据集且每个x_z的类别标签都是c。即M₀的计算还可以采用上述M_c的计算方式，只要把其中的c换成0，而n⁽⁰⁾＝n，m⁽⁰⁾＝m，

步骤8.2.2)，对带有预测分类器系数向量α的目标函数求解预测分类器系数α，从而得到预测分类器；

对α＝argmin||(Y₁-α^TK¹)E||²+tr(σα^TK¹α+α^TK¹(λM+gT)K¹α)

式中α求导并令式子为0,得到

α＝((E+λM+gT)K¹+σI)^-1EY₁ ^T。

α＝(α₁……α_n+m)，将得到的向量α代回预测分类器公式，得到可用于源域图像数据和目标域图像数据的预测分类器f(x_u)；

步骤8.3)，将目标域图像数据依次输入步骤8.2.2得到的预测分类器中，得到目标域图像预测标签，完成目标域数据分类工作；

将D_t中的数据x_j(j＝n+1，n+2,……n+m)代入步骤8.2.2得到的预测分类器f(x_u)中，(将u换成j)即：

K(x_r，x_j)的值参考步骤8.1中公式得到，仅需要把u换成j，α_r为步骤8.2.2中得到的系数向量α中对应值，从而得到目标域D_t中每一个图像数据x_j的图像预测标签f(x_j)，完成目标域图像数据分类任务。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应该涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书中的保护范围为准。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种保持图像分类稀疏结构的迁移分类学习方法，其特征在于，包括以下步骤：

步骤8)，给定带有分类器系数α的预测分类器公式，将分类器公式带入分类器约束框架中，此时分类器约束框架为关于分类器系数α的函数，求解得到分类器系数α、即得到最终的预测分类器，然后输入目标域图像数据，得到目标域图像预测标签，完成目标域图像数据分类任务。

2.根据权利要求1所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，所述步骤1)的详细步骤如下：

步骤1.1)，采集源域图像数据和源域图像标签；

步骤1.2)，采集目标域图像数据；

3.根据权利要求2所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，所述步骤2)的详细步骤如下：

4.根据权利要求3所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，所述步骤4)的详细步骤如下：

步骤4.1)，构造边缘分布项；

雏形构造如下：

<mrow> <msubsup> <mi>MMD</mi> <mi>H</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mi>m</mi> </mrow> </munderover> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mi>H</mi> <mn>2</mn> </msubsup> </mrow>

<mrow> <msub> <mi>D</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>K</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>P</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mi>m</mi> </mrow> </munderover> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mi>H</mi> <mn>2</mn> </msubsup> </mrow>

其中，P_s为源域的边缘分布，P_t为目标域的边缘分布；

步骤4.2)，构造条件分布项；

步骤4.2.1)，构造每一类c的条件分布项；

<mrow> <msubsup> <mi>D</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>K</mi> </mrow> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>Q</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mfrac> <mn>1</mn> <msup> <mi>n</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msup> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>x</mi> <mi>v</mi> </msub> <mo>&Element;</mo> <msubsup> <mi>D</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </munder> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>v</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <msup> <mi>m</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msup> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>x</mi> <mi>z</mi> </msub> <mo>&Element;</mo> <msubsup> <mi>D</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> </mrow> </munder> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>z</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mi>H</mi> <mn>2</mn> </msubsup> </mrow>

<mrow> <msub> <mi>D</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>K</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>Q</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <msubsup> <mi>D</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>K</mi> </mrow> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>Q</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>

D_f,K(J_s,J_t)＝D_f,K(P_s,P_t)+D_f,K(Q_s,Q_t)

其中，J_s是源域中的联合分布，J_t是目标域联合分布。

5.根据权利要求4所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，所述步骤5)中第二分类器约束项构造如下：

<mrow> <msub> <mi>gS</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>K</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>N</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>N</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mi>m</mi> </mrow> </munderover> <msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>x</mi> <mi>r</mi> </msub> <mo>)</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mi>m</mi> </mrow> </munderover> <msub> <mi>S</mi> <mrow> <mi>r</mi> <mi>u</mi> </mrow> </msub> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

6.根据权利要求5所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，所述步骤6)中第三分类器约束项构造如下：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>f</mi> <mo>&Element;</mo> <msub> <mi>H</mi> <mi>K</mi> </msub> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&sigma;</mi> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mo>|</mo> <msup> <msub> <mo>|</mo> <mi>K</mi> </msub> <mn>2</mn> </msup> </mrow>

7.根据权利要求6所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，所述步骤7)中分类器约束框架构造如下：

<mrow> <mi>f</mi> <mo>=</mo> <munder> <mi>arg</mi> <mrow> <mi>f</mi> <mo>&Element;</mo> <msub> <mi>H</mi> <mi>K</mi> </msub> </mrow> </munder> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>l</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&sigma;</mi> <mo>|</mo> <mo>|</mo> <mi>f</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>K</mi> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&lambda;D</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>K</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>J</mi> <mrow> <mi>s</mi> <mo>,</mo> </mrow> </msub> <msub> <mi>J</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>gS</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>K</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>N</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>N</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，λ为预设的的正则化参数。

8.根据权利要求7所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，所述步骤8)的详细步骤如下：

步骤8.1)，给定带有分类器系数α的预测分类器公式，α＝(α₁……α_n+m)；

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mi>m</mi> </mrow> </munderover> <msub> <mi>&alpha;</mi> <mi>r</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>r</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>&alpha;</mi> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>|</mo> <mo>|</mo> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mn>1</mn> </msub> <mo>-</mo> <msup> <mi>&alpha;</mi> <mi>T</mi> </msup> <msup> <mi>K</mi> <mn>1</mn> </msup> <mo>)</mo> </mrow> <mi>E</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mi>t</mi> <mi>r</mi> <mrow> <mo>(</mo> <msup> <mi>&sigma;&alpha;</mi> <mi>T</mi> </msup> <msup> <mi>K</mi> <mn>1</mn> </msup> <mi>&alpha;</mi> <mo>+</mo> <msup> <mi>&alpha;</mi> <mi>T</mi> </msup> <msup> <mi>K</mi> <mn>1</mn> </msup> <mo>(</mo> <mrow> <mi>&lambda;</mi> <mi>M</mi> <mo>+</mo> <mi>g</mi> <mi>T</mi> </mrow> <mo>)</mo> <msup> <mi>K</mi> <mn>1</mn> </msup> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>w</mi> <mi>T</mi> </msup> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mi>m</mi> </mrow> </munderover> <msub> <mi>&alpha;</mi> <mi>r</mi> </msub> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>r</mi> </msub> <mo>)</mo> </mrow> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mi>m</mi> </mrow> </munderover> <msub> <mi>&alpha;</mi> <mi>r</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>r</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>

9.根据权利要求8所述的保持图像分类稀疏结构的迁移分类学习方法，其特征在于，σ＝0.1，λ＝10，g＝1。