CN116701891A

CN116701891A - 基于Schatten-p范数的低秩判别迁移子空间学习方法

Info

Publication number: CN116701891A
Application number: CN202310448643.1A
Authority: CN
Inventors: 刘玥瑛; 罗廷金
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-09-05

Abstract

本发明公开了一种基于Schatten‑p范数的低秩判别迁移子空间学习方法，包括以下步骤：S1、基于Schatten‑p范数构建相似度学习的目标函数；S2、通过非精确增广拉格朗日乘子算法对目标函数进行迭代求解得到投影矩阵P；S3、将源域和目标域数据通过投影矩阵P投影到一公共特征子空间中。本发明采用相比于核范数，对秩函数近似更为紧致的Schatten‑p范数作为代理模型，在设计判别子空间学习函数时，采用松弛标签矩阵，使得投影后数据更好拟合标签，同时扩大不同类别数据之间间隔，提升分类性能。

Description

基于Schatten-p范数的低秩判别迁移子空间学习方法

技术领域

本发明涉及数据处理技术领域，更具体地说，特别涉及一种基于Schatten-p范数的低秩判别迁移子空间学习方法。

背景技术

随着互联网的发展，海量数据使得训练高性能的分类模型成为可能。然而，大多数数据集是无标注的，并且分布不一致。为解决这一问题，无监督领域自适应提供了一种很自然的思路，即将知识从有标签的源域中迁移到无标注的目标域，从而提高对目标域的学习。如今，无监督领域自适应已被广泛应用到计算机视觉、自然语言处理、医疗健康等各个领域。

许多专家系统地总结了无监督领域自适应的方法，大致可以分为如下两类。第一类方法是基于分布自适应，它通过变换直接最小化源域和目标域分布差异。而衡量两个域之间的差异又可以通过不同距离来刻画，如最大均值差异散度(MMD)、Bregman散度以及KL散度等。基于这些距离，寻求使得源域和目标域分布差异最小的映射函数。经典方法有许多，如迁移成分分析(TCA)，它将两域数据一起映射到一个高维的再生核希尔伯特空间。在此空间中，通过MMD最小化源域和目标域的数据距离，同时最大程度地保留它们各自的内部属性。此外，基于分布自适应的代表性方法还有联合分布适配(JDA)、平衡分布适配(BDA)、联合概率分布适配(JPDA)等。而第二类方法是基于子空间学习，它假设不同域可以处于同一个公共迁移子空间中。与第一类方法相比，基于子空间学习的方法可以很好保留来自源域的知识，促进目标域挖掘更多的几何结构特征。此外，基于分布自适应的方法不能很好地解决复杂背景下的目标识别问题，并且严重依赖于对分布距离的刻画。

迁移子空间学习方法通过分析数据结构来挖掘跨域的共同潜在特征，从而隐式地减少领域之间的差异。这些方法可以也分为两类。第一类方法试图通过流形学习来保持数据的全局和局部结构，如测地线流采样(SGF)和测地线流式核方法(GFK)。SGF假设源域和目标域都是格拉斯曼流形中的一个点，通过两者测地线距离上的d个中间点连接起来形成一条路径，之后通过找到每一步合适的变换来实现源域到目标域的迁移。GFK在SGF基础上进行改进，回答了选取多少个中间点合适。它构造了一个测地线流核模型，通过对无限个子空间进行积分来解决域迁移问题。相比之下，第二类迁移子空间学习方法是通过对齐两域数据的统计特征来实现知识的迁移，例如：子空间对齐(SA)和子空间分布对齐(SDA)对齐了源域和目标域的一阶统计量，方差关联对齐(CORAL)对齐了两域的二阶统计量。然而，由于噪声和异常值的负面影响，仅对齐统计数据生成的模型可能不够鲁棒。为此，Shao等人提出了低秩迁移子空间学习(LTSL)，它将源域和目标域中数据迁移到统一的广义子空间中，之后通过源域样本实现对目标域样本的线性重构。它指出重构矩阵应该具有块状结构，数学上可以通过施加低秩约束实现这一目的，从而很好的对齐源域和目标域。此外，LTSL引入噪声矩阵，并对其施加l₁范数来促进噪声稀疏性，从而提升方法的鲁棒性。Xu等人提出的判别迁移子空间学习(DTSL)，则指出对重构矩阵施加联合的低秩和稀疏约束可以有效保留域中数据的全局和局部结构。联合特征选择和结构保留方法(FSSP)和联合低秩表示和特征选择(JLRFS)两种方法侧重于结合特征选择和子空间对齐，通过对投影矩阵施加l_2,1范数来提高其行稀疏特性，从而去除冗余特征。此外，引入图正则化项来更好的保持数据的几何结构。Lin等人指出之前算法均采用凸松弛方式来求解原始非凸问题，这可能导致性能偏差，因此使用非凸算子来刻画约束。

然而，传统的迁移子空间学习方法在挖掘数据结构和数据鉴别性方面仍然有待提升。具体来说，秩最小化问题是NP难的，由于核范数是秩函数在单位球上最紧的凸算子，因此传统方法广泛采用核范数作为秩函数的替代模型。这一策略的主要局限性是核范数会过度惩罚较大的奇异值，导致其解严重偏离最优解。其次，传统方法直接使用源域的严格标签矩阵，这使得模型很容易受到标签噪声的干扰。针对这两大问题，确有必要提出基于Schatten-p范数的低秩判别迁移子空间学习方法。

发明内容

本发明的目的在于提供一种基于Schatten-p范数的低秩判别迁移子空间学习方法，以克服现有技术所存在的缺陷。

为了达到上述目的，本发明采用的技术方案如下：

基于Schatten-p范数的低秩判别迁移子空间学习方法，包括以下步骤：

S1、基于Schatten-p范数构建相似度学习的目标函数；

S2、通过非精确增广拉格朗日乘子算法对目标函数进行迭代求解得到投影矩阵P；

S3、将源域和目标域数据通过投影矩阵P投影到一公共特征子空间中。

进一步地，所述步骤S1的具体方法为：

S10、将目标域数据由源域数据表示为：

P^TX_t＝P^TX_sZ+E

式中，P^T为投影矩阵P的转置矩阵，P将源域、目标域投影到一公共特征子空间中，Z度量子空间中源域和目标域之间数据的相似性，E为噪声矩阵，X_t为目标域数据特征，X_s为源域数据特征；

S11、构建相似度学习的目标函数为：

式中，α,β为正则化参数，为矩阵Z的第i个最大奇异值σ_i的0次方，||E||₁为噪声矩阵E的l₁范数，/>表示通过调整矩阵P,Z,E从而最小化目标函数，s.t.表示目标函数受限于约束条件。

S12、将Schatten-p范数代入步骤S11中目标函数的表达式中得到：

式中，为矩阵Z的第i个最大奇异值σ_i的p次方，n_s和n_t分别为矩阵Z的行数和列数。

S13、引入损失将目标函数表示为：

S14、引入非负松弛标签矩阵M来松弛源域标签Y，得到转换后的松弛标签矩阵为：

Y°＝Y+B⊙M；

式中，⊙为Hadamard算子，矩阵B为：

S15、将步骤S14的松弛标签矩阵引入步骤S13中的目标函数得到：

进一步地，所述步骤S2具体包括：

S20、引入矩阵J，将目标函数转化为：

得到模型的拉格朗日函数为：

式中，Y₁,Y₂为拉格朗日乘数，μ为惩罚因子；

S21、固定矩阵Z、J、E和M时，更新投影矩阵P；

S22、固定矩阵P、J、E和M时，更新重构矩阵Z；

S23、固定矩阵P、Z、E和M时，更新矩阵J；

S24、固定矩阵P、Z、J和M时，更新矩阵E；

S25、固定矩阵P、Z、J和E时，更新矩阵M；

S26、更新拉格朗日乘数Y₁,Y₂以及惩罚因子μ；

S27、重复上述步骤S21-S22直至步骤S20中的目标函数满足收敛条件，得到最终的投影矩阵P。

进一步地，所述步骤S21具体为：

固定矩阵Z、J、E和M时，拉格朗日函数为：

令上述公式的偏导数为0，得到投影矩阵P的封闭解为：

式中，G₁＝Y+B⊙M，G₂＝X_t-X_sZ，

进一步地，所述步骤S22具体为：

固定矩阵P、J、E和M时，拉格朗日函数为：

令上述公式的偏导数为0，得到重构矩阵Z的封闭解为：

进一步地，所述步骤S23具体为：

固定矩阵P、Z、E和M时，拉格朗日函数为：

式中，求解得到J的解析解。

进一步地，所述步骤S24具体为：

固定矩阵P、Z、J和M时，拉格朗日函数为：

得到矩阵E的迭代解为：

进一步地，所述步骤S25具体为：

固定矩阵P、Z、J和E时，拉格朗日函数为：

令R＝P^TX_s-Y，上式分解成d×n_s个优化问题其中，d,n_s分别为非负松弛标签矩阵的行数和列数，优化问题的解为M_ij＝max(R_ijB_ij,0)，得到矩阵M的闭式解为：

M^*＝max(R⊙B,0)。

进一步地，所述步骤S26通过以下公式更新拉格朗日乘数Y₁,Y₂以及惩罚因子μ：

进一步地，还包括对步骤S20中目标函数增加P^TP＝I的约束条件，得到更新后的目标函数为：

所述步骤S21固定矩阵Z、J、E和M，更新投影矩阵P时，上述目标函数转变为以下公式：

将上述公式等价改写为：

式中，

再通过广义幂迭代法进行优化求解得到最优解。

与现有技术相比，本发明的优点在于：本发明采用相比于核范数，对秩函数近似更为紧致的Schatten-p范数作为代理模型，在设计判别子空间学习函数时，采用松弛标签矩阵，使得投影后数据更好拟合标签，同时扩大不同类别数据之间间隔，提升分类性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于Schatten-p范数的低秩判别迁移子空间学习方法的框架示意图。

图2是本发明算法迭代优化求解图。

图3是本发明目标域样本分类流程图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

传统的迁移子空间学习方法通过学习投影矩阵来获得不变特征，减少域之间的差异。它们经常对重构矩阵施加低秩约束来保留数据的结构性信息。然而，秩最小化问题难以求解。传统方法采用核范数作为秩函数的凸近似，但它过于松弛，导致结果严重偏离理想解。此外，传统的迁移子空间学习方法直接使用严格的源域标签矩阵，这一操作很容易受到对标签噪声的干扰。因此，本发明提出了基于Schatten-p范数的低秩判别迁移子空间学习方法来解决这些挑战，主要框架如图1所示，主要包括以下步骤：

步骤S1、基于Schatten-p范数构建相似度学习的目标函数，具体包括：

步骤S10、本实施例的目标是学习一个投影矩阵P，将源域和目标域数据投影到一个公共特征子空间中，从而减少两个域的分布差异。换句话说，两个域的数据位于同一潜在特征子空间中。因此，目标域数据可以由源域数据表示为：

P^TX_t＝P^TX_sZ+E (1)

式中，P^T为投影矩阵P的转置矩阵，Z度量子空间中源域和目标域之间数据的相似性，E为噪声矩阵，X_t为目标域数据特征，X_s为源域数据特征；

步骤S11、现有技术中的Shao等人提出为了在重构过程中保持数据的全局和局部结构，重构矩阵Z应该具有块状结构，数学上可以通过施加低秩约束实现这一目的。此外，数据集中的噪声和异常值通常认为是稀疏的，数学上可以通过l₁范数对其进行刻画。因此，相似度学习的目标函数为：

min_P,Z,Eα·rank(Z)+β||E||₁ s.t.P^TX_t＝P^TX_sZ+E (2)

步骤S12、由于矩阵的秩是其奇异值向量的l₀范数，即而l₀范数是非凸且难以求解的，因此l₁范数被广泛用作l₀范数的最优凸近似。核范数是奇异值向量的l₁范数，即||Z||_*＝∑σ_i。因此，研究者将其作为代理模型来解决秩最小化问题。然而，这种松弛方式会过度惩罚奇异值较大的项，致使解严重偏离理想解。本实施例中采用Schatten-p范数作为秩函数的代理模型。分析可知，Schatten-p范数在逼近秩函数时比核范数更有效，因此其解也更接近秩最小化问题的理想解。将Schatten-p范数引入公式(2)后可以得到下式：

步骤S13、通过对源域标签Y进行拟合，可以增强迁移矩阵P的鉴别性。采用传统的线性回归模型进行设计，其损失可以表述为：

其中，λ为非负平衡因子。通过引入φ(P,Y,X_s)，目标函数可以表示为：

步骤S14、由于公式(4)直接采用严格的二进制标签，会严重受到标签噪声和异常值的干扰。因此，本实施例引入了一个非负松弛标签矩阵M来松弛源域标签Y，从而减小标签噪声的影响。转换后的松弛标签矩阵定义为：

Y^°＝Y+B⊙M

式中，⊙为Hadamard算子，矩阵B为：

S15、由于Y^°效应，不同类别之间的间距会扩大，以两分类数据集为例，松弛前不同类的样本之间的距离为松弛后距离为/>因此数据更具鉴别性，有利于对数据的分类。同时，松弛标签矩阵使得子空间选择时，模型具有更大的自由度。换句话说，迁移矩阵P的自由度更大，分类器更加灵活。因此，将步骤S14的松弛标签矩阵引入步骤S13中最终得到的目标函数为：

步骤S2、通过非精确增广拉格朗日乘子算法对目标函数进行迭代求解得到投影矩阵P，具体包括：

步骤S20、由于模型中刻画低秩的Schatten-p范数为非凸算子，导致目标函数非凸难以求解。因此，本实施例设计了一种有效的非精确增广拉格朗日乘子(IALM)算法来迭代求解。通过引入矩阵J，将目标函数转化为：

得到模型的拉格朗日函数为：

式中，Y₁,Y₂为拉格朗日乘数，μ为惩罚因子；受乘子交替迭代法(ADMM)的启发，本实施例迭代地更新(9)中的变量。

步骤S21、更新投影矩阵P，固定矩阵Z、J、E和M时，目标函数(9)可以重写为：

令公式(10)的的偏导数为0，得到投影矩阵P的封闭解为：

式中，G₁＝Y+B⊙M，G₂＝X_t-X_sZ，

步骤S22、更新重构矩阵Z，固定矩阵P、J、E和M时，更新Z的目标函数为：

令公式(12)的偏导数为0，得到重构矩阵Z的封闭解为：

步骤S23、更新矩阵J，固定矩阵P、Z、E和M时，更新J的目标函数为：

式中，参考现有技术中Nie等人在“基于联合Schatten-p范数和l_p范数最小化的鲁棒矩阵恢复”一文中的求解方式，得到J的解析解。具体来讲，优化公式(14)可以通过SVD分解为：

式中，σ_i,a_i分别为矩阵J和G的第i个最大特征值，每个σ_i可以通过求解下述问题得到：

定义g(x)＝x-a+γpx^p-1，其中g(x)为h(x)的梯度，x的最优值为：

式中，g′(v)＝0,x₁是g(x)＝0的根。

步骤S24、更新矩阵E，固定矩阵P、Z、J和M时，更新E的目标函数为：

参考现有技术中Liu在“通过低秩表示对子空间结构的鲁棒恢复。”一文中求解l₁范数的过程，公式(15)可以通过收缩算子求解，E的迭代解可以表示为：

式中，shrink(x,c)＝sign max(|x|-c,0)。

步骤S25、更新矩阵M，固定矩阵P、Z、J和E时，更新M的目标函数为：

令R＝P^TX_s-Y，上式分解成d×n_s个优化问题其中，d,n_s分别为非负松弛标签矩阵的行数和列数，优化问题的解为M_ij＝max(R_ijB_ij,0)，因此公式(17)的闭式解为：

M^*＝max(R⊙B,0) (18)

步骤S26、更新拉格朗日乘数Y₁,Y₂以及惩罚因子μ，通过以下公式：

步骤S27、重复上述步骤S21-S22直至步骤S20中的目标函数满足收敛条件，得到最终的投影矩阵P。

步骤S3、将源域和目标域数据通过投影矩阵P投影到一公共特征子空间中。

如图2所示，本发明的算法可以通过如下表1来体现：

表1

作为对本发明的进一步改进，本发明还包括对步骤S20中目标函数增加P^TP＝I的约束条件，从定义出发，当该条件成立时，投影矩阵P满秩，这可以保证子空间最大程度保留原始数据的内部属性，即迁移后数据所含的原始信息。因此，本实施例可以得到目标函数为：

分析可知，增加P^TP＝I约束条件仅对投影矩阵P的迭代产生影响，即步骤S21固定矩阵Z、J、E和M，更新投影矩阵P时，上述目标函数转变为以下公式：

将上述公式等价改写为：

式中，

公式(22)是典型的Stiefel流形上的二次优化问题，可通过现有技术中Nie提出的广义幂迭代法(GPI)进行优化求解得到最优解。

通过本发明的方法可以将源域和目标域数据通过投影矩阵P投影到一公共特征子空间中，在迁移任务中，本实施例通过学习源域中的信息来对目标域样本进行分类。具体操作如图3所示。首先从开源数据集中获得源域数据特征和标签、以及目标域数据特征。之后经过本实施例的算法，得到投影矩阵P，从而将源域数据和目标域数据投影到公共的低维子空间中。再采用子空间中的源域数据和标签对分类器进行训练，分类器一般采用较为简单的最近邻(NN)或支持向量机(SVM)。最后应用到目标域中，从而得到目标域数据的分类情况。

本发明采用相比于核范数，对秩函数近似更为紧致的Schatten-p范数作为代理模型，在设计判别子空间学习函数时，采用松弛标签矩阵，使得投影后数据更好拟合标签，同时扩大不同类别数据之间间隔，提升分类性能。

虽然结合附图描述了本发明的实施方式，但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改，只要不超过本发明的权利要求所描述的保护范围，都应当在本发明的保护范围之内。

Claims

1.基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，包括以下步骤：

S1、基于Schatten-p范数构建相似度学习的目标函数；

2.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S1的具体方法为：

S10、将目标域数据由源域数据表示为：

P^TX_t＝P^TX_sZ+E

S11、构建相似度学习的目标函数为：

S12、将Schatten-p范数代入步骤S11中目标函数的表达式中得到：

S13、引入损失将目标函数表示为：

Y°＝Y+B⊙M；

式中，⊙为Hadamard算子，矩阵B为：

3.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S2具体包括：

S20、引入矩阵J，将目标函数转化为：

得到模型的拉格朗日函数为：

式中，Y₁,Y₂为拉格朗日乘数，μ为惩罚因子；

S21、固定矩阵Z、J、E和M时，更新投影矩阵P；

S22、固定矩阵P、J、E和M时，更新重构矩阵Z；

S23、固定矩阵P、Z、E和M时，更新矩阵J；

S24、固定矩阵P、Z、J和M时，更新矩阵E；

S25、固定矩阵P、Z、J和E时，更新矩阵M；

S26、更新拉格朗日乘数Y₁,Y₂以及惩罚因子μ；

4.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S21具体为：

固定矩阵Z、J、E和M时，拉格朗日函数为：

令上述公式的偏导数为0，得到投影矩阵P的封闭解为：

式中，G₁＝Y+B⊙M，G₂＝X_t-X_sZ，

5.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S22具体为：

固定矩阵P、J、E和M时，拉格朗日函数为：

令上述公式的偏导数为0，得到重构矩阵Z的封闭解为：

6.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S23具体为：

固定矩阵P、Z、E和M时，拉格朗日函数为：

式中，求解得到J的解析解。

7.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S24具体为：

固定矩阵P、Z、J和M时，拉格朗日函数为：

得到矩阵E的迭代解为：

8.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S25具体为：

固定矩阵P、Z、J和E时，拉格朗日函数为：

M^*＝max(R⊙B,0)。

9.根据权利要求1所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，所述步骤S26通过以下公式更新拉格朗日乘数Y₁,Y₂以及惩罚因子μ：

10.根据权利要求3所述的基于Schatten-p范数的低秩判别迁移子空间学习方法，其特征在于，还包括对步骤S20中目标函数增加P^TP＝I的约束条件，得到更新后的目标函数为：

将上述公式等价改写为：

式中，

再通过广义幂迭代法进行优化求解得到最优解。