CN109657693B

CN109657693B - 一种基于相关熵和迁移学习的分类方法

Info

Publication number: CN109657693B
Application number: CN201811230487.7A
Authority: CN
Inventors: 王微; 武斌; 黄志宇; 于洁
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2023-08-01
Anticipated expiration: 2038-10-22
Also published as: CN109657693A

Abstract

本发明公开一种基于相关熵和迁移学习的分类方法，属于机器学习技术领域，用于解决现有技术中需要对不可预知的噪声进行稀释性假设及目标数据集标注样本不足的问题，充分利用源数据集的标签信息，通过源数据集和目标数据集共同学习，在严重噪声环境下，将源数据集中的知识鲁棒地迁移到目标数据集，从而显著提高目标数据集上的分类识别效果。

Description

一种基于相关熵和迁移学习的分类方法

技术领域

本发明属于机器学习技术领域，具体涉及一种基于相关熵和迁移学习的分类方法。

背景技术

在传统的机器学习框架下，监督学习的任务是利用有标注的训练样本来学习一个分类模型，并利用这个模型对测试样本进行分类和预测。这些传统的监督学习模型存在一个基本假设，即大量的有标注的训练样本和测试样本服从相同的概率分布。然而在当前众多的研究领域中，由于昂贵的人工标注代价，训练样本和测试样本通常分别来自源域和目标域两个不同的领域，从而服从不同的概率分布。在这种情况下，传统的分类模型无法扩展到测试样本所在的目标域。迁移学习旨在通过挖掘两个领域间的关联，将源域的知识传递到目标域，从而帮助测试样本的分类。因此，迁移学习能有效解决标注样本不足的问题，节约人力成本，在机器学习和模式识别中占据重要地位。

传统的迁移学习方法以线性模型为主，同时也逐渐向基于深度网络等非线性模型过渡。

近年来，能抵抗实际噪声的知识迁移受到越来越多的关注。然而已有的鲁棒的知识迁移方法存在以下问题。这些鲁棒方法假设数据中存在的噪声是稀疏的，然而在实际问题中，数据可能被各种复杂的、不可预知的噪声所污染。这些被复杂噪声污染的数据将严重影响已有知识迁移方法的结果，甚至造成负迁移。

对不可预知的噪声而言，基于相关熵的损失函数能够带来优于传统经验损失函数的鲁棒效果，对相关熵研究的重要性在鲁棒学习领域已经形成共识。如何基于相关熵理论进一步发展迁移学习技术方法仍然存在极大挑战。

发明内容

为克服上述问题，本发明提出一种基于相关熵和迁移学习的分类方法，充分利用源数据集的标签信息，通过源数据集和目标数据集共同学习，有效解决了目标数据集标注样本不足的问题。

为实现上述目的，本发明采用的技术方案是：

一种基于相关熵和迁移学习的分类方法，包括以下步骤：

分别对有标签的源数据集、无标签的目标数据集进行L2范数归一化；

利用基于相关熵的迁移学习算法，对所述归一化的源数据集和目标数据集进行迁移迭代训练，得到特征变换矩阵；

利用所述特征变换矩阵，将所述归一化的源数据集和目标数据集都映射到一特征空间，在该特征空间中所述归一化的源数据集和目标数据集的概率分布相同；

在所述特征空间中，利用所述归一化的源数据集及其标签信息进行训练，得到目标分类器；

利用目标分类器对所述归一化的目标数据集进行分类预测，以实现目标数据集的分类。

进一步地，所述基于相关熵的迁移学习算法的目标方程为：

其中，是基于相关熵的误差损失函数，W是特征变换矩阵，C是重构系数矩阵，X_t是目标数据集组成的矩阵，X_s是源数据集组成的向量，σ是高斯函数带宽，(WX_t-WX_sC)ⁱ是误差矩阵(WX_t-WX_sC)的第i列向量，λ₁和λ₂是平衡系数，m表示目标数据集的数据样本个数。

进一步地，引入半二次优化中的辅助变量p_i，对所述基于相关熵的迁移学习算法的目标方程进行更新，更新后的目标方程为：

其中，是相关熵的凸共轭函数，本发明的优化过程和结果并不需要/>的具体表达式；

通过半二次优化中的循环迭代方法来得到最优的参数W,C,p_i。

进一步地，所述循环迭代方法的步骤包括：

首先，固定W和C，根据凸共轭函数理论，获得p_i的如下最优解：

其次，固定p_i和C，结合凸优化方法和特征分解法来求解如下W的目标方程：

最后，固定p_i和W，基于l₁范数的凸优化方法来求解如下C的目标方程：

进一步地，通过SVM或1-NN分类算法，利用所述归一化的源数据集及其标签信息进行训练，得到目标分类器。

一种基于相关熵和迁移学习的分类系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述方法中各步骤的指令。

一种存储计算机程序的计算机可读存储介质，该计算机程序包括指令，该指令当由服务器的处理器执行时使得该服务器执行上述方法中的各个步骤。

与现有技术相比，本发明的优点和积极效果如下：

本发明对相关熵理论进行深入研究，提供了基于相关熵的损失函数，能够自动检测出被污染的数据点进而对这些数据点进行抑制，有效地解决了现有技术中需要对不可预知的噪声进行稀释性等假设的问题，极大地增强了迁移学习方法的鲁棒性。因此，本发明有效地适用于如下复杂应用环境：大量的样本被污染，污染非常严重并且由多重复杂噪声同时引起。

本发明所述的基于共轭理论和半二次理论的优化过程，能够保证收敛性，解决了原有方法中优化过程的收敛性缺失问题。

本发明充分利用了源数据集的标签信息，通过源数据集和目标数据集共同学习，在严重噪声环境下，将源数据集中的知识鲁棒地迁移到目标数据集，从而显著提高目标数据集上的分类识别效果，有效解决了目标数据集标注样本不足的问题。

附图说明

图1为实施例中的一种基于相关熵和迁移学习的分类方法的流程图；

图2为实施例提供的源数据集样本示意图；

图3为实施例提供的目标数据集样本示意图；

图4为实施例提供的被遮挡污染的目标数据集样本示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种基于相关熵和迁移学习的分类方法，如图1所示流程图，步骤包括：

S1：对有标签的源数据集、无标签的目标数据集进行预处理，进行归一化。

本实施例中采用标准的CMU-PIE人脸数据库作为实验数据。CMU-PIE人脸库包含来自68个人的41368张人脸图像。这些图像来自人脸不同的角度，每张图像的大小为32*32。本实施例中有标签的源数据集来自CMU-PIE中人脸角度为左侧脸的图像，无标签的目标数据集来自CMU-PIE中人脸角度为右侧脸的图像。图2是本实施例提供的源数据集样本示意图。图3为本实施例提供的目标数据集样本示意图。可以看出，源数据集和目标数据集服从不同但是相关的概率分布。为了验证本发明的鲁棒性，本实施例中目标数据集中的图像被噪声所污染，即原始人脸图像被一个16*16大小的猴子图像所遮挡。图4为本实施例提供的被遮挡污染的目标数据集样本示意图。

S2：利用基于相关熵的迁移学习算法，对归一化的源数据集和目标数据集进行迁移迭代训练，得到特征变换矩阵。

本步骤中，需要进行基于相关熵的迁移学习算法的表示、算法参数的优化和特征变换矩阵的获取。

具体地，所述基于相关熵的迁移学习算法的目标方程的表达式如下：

其中，是基于相关熵的误差损失函数，W是特征变换矩阵，C是重构系数矩阵，X_t是目标数据集组成的矩阵，X_s是源数据集组成的向量，σ是高斯函数带宽，(WX_t-WX_sC)ⁱ是误差矩阵(WX_t-WX_sC)的第i列向量，λ₁和λ₂是平衡系数，m表示目标数据集的数据样本个数。本方法最后需要得到的就是变换矩阵W。

上述算法参数的优化过程具体包括：

1)引入半二次优化中的辅助变量p_i，对上述迁移学习算法的目标方程进行更新；

其中，上述基于相关熵的损失函数是非线性、非凸的，很难直接求解。引入辅助变量p_i可以将该非凸的相关熵损失函数转化为半二次形式，简化求解难度，更新后的目标方程表达式如下：

其中，是相关熵的凸共轭函数，优化过程和结果并不需要/>的具体表达式。

2)通过半二次优化中的循环迭代来得到最优的参数。

其中，通过循环迭代来得到W,C,p_i的最优解。首先，固定W和C，根据凸共轭函数理论，可以获得p_i的最优解，其最优解表达公式如下：

接着固定p_i和C，求解W的目标方程表达式如下：

其中，可以结合凸优化方法和特征分解法来求解上述表达式从而获得最优解W。

最后固定p_i和W，求解C的目标方程表达式如下：

其中，可以基于l₁范数的凸优化方法来求解上述表达式从而获得最优解C。

本发明根据半二次优化理论和凸优化理论证明了上述循环迭代优化方法的收敛性。

S3：用变换矩阵W将源数据集和目标数据集线性变换到一个新的特征空间，在该特征空间中，两个数据集的几何结构一致，概率分布近似。

S4：在上述特征空间中，本实例选取1-NN分类算法，将源数据集作为训练数据，目标数据集作为测试数据，从而对目标数据集进行分类预测。其中1-NN分类算法的优势在于不需要对分类器参数进行调整。1-NN测试结果如表1所示：

表1人脸测试实验结果

通过表1的实验结果可以知，本发明提供的基于相关熵和迁移学习的分类方法能够显著抵抗噪声，极大地提高了分类精度。

表1中涉及的现有技术方法见如下相关文献：

[1]Gong,B.；Shi,Y.；Sha,F.；and Grauman,K.2012.Geodesic flow kernel forunsupervised domain adaptation.In Proceedings of the Twenty-Fifth IEEEConference on Computer Vision and Pattern Recognition,2066–2073.

[2]Si,S.；Tao,D.；and Geng,B.2010.Bregman divergence-basedregularization for transfer subspace learning.IEEE Transactions on Knowledgeand Data Engineering 22(7):929–942.

[3]Long,M.；Wang,J.；Ding,G.；Sun,J.；and Yu,P.S.2013.Transfer featurelearning with joint distribution adaptation.In Proceedings of the FourteenthInternational Conference on Computer Vision,2200–2207.

[4]Zhang,L.；Zuo,W.；and Zhang,D.2016.Lsdt:Latent sparse domaintransfer learning for visual adaptation.IEEE Transactions on Image Processing25(3):1177–1191.

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于相关熵和迁移学习的分类方法，包括以下步骤：

分别对有标签的人脸图像源数据集、无标签的人脸图像目标数据集进行归一化；

利用目标分类器对所述归一化的目标数据集进行分类预测，以实现目标数据集即人脸图像的分类；

所述基于相关熵的迁移学习算法的目标方程为：

其中，是基于相关熵的误差损失函数，W是特征变换矩阵，C是重构系数矩阵，X_t是目标数据集组成的矩阵，X_s是源数据集组成的向量，σ是高斯函数带宽，(WX_t-WX_sC)ⁱ是误差矩阵(WX_t-WX_sC)的第i列向量，λ₁和λ₂是平衡系数，m表示目标数据集的数据样本个数；

引入半二次优化中的辅助变量p_i，对所述基于相关熵的迁移学习算法的目标方程进行更新，更新后的目标方程为：

其中，是相关熵的凸共轭函数；

通过半二次优化中的循环迭代方法来得到最优的参数W,C,p_i；

所述循环迭代方法的步骤包括：

2.如权利要求1所述的方法，其特征在于，所述归一化为L2范数归一化。

3.如权利要求1所述的方法，其特征在于，通过SVM或1-NN分类算法，利用所述归一化的源数据集及其标签信息进行训练，得到目标分类器。

4.一种基于相关熵和迁移学习的分类系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述权利要求1至3任一所述的方法中各步骤的指令。

5.一种存储计算机程序的计算机可读存储介质，该计算机程序包括指令，该指令当由服务器的处理器执行时使得该服务器执行上述权利要求1至3任一所述的方法中的各个步骤。