CN115019084A

CN115019084A - 一种基于张量多属性特征迁移的分类方法

Info

Publication number: CN115019084A
Application number: CN202210529783.7A
Authority: CN
Inventors: 刘欣刚; 叶嘉林; 陈捷元; 吕卓祺; 章权江; 张泽龙
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-09-06
Anticipated expiration: 2042-05-16
Also published as: CN115019084B

Abstract

本发明涉及迁移学习和张量领域，具体为一种基于张量多属性特征迁移的分类方法；该方法结合张量体系和基于特征的迁移方法实现了对无标签数据集的有效分类。分类过程中，首先通过张量建模的方式建立有标签源域和无标签目标域的张量模型，然后使用动态分布自适应方法对源域样本张量和目标域样本张量每一个特征阶迭代进行了特征对齐，实现了源域样本和目标域样本多属性间统计特征的迁移。相较于传统的特征迁移方法提高了对无标签目标域数据样本的分类准确率。

Description

一种基于张量多属性特征迁移的分类方法

技术领域

本发明涉及迁移学习和张量领域，具体涉及一种基于张量多属性特征迁移的分类方法。

背景技术

随着大数据时代的来临，能否对收集到的数据及时有效的处理影响生产生活中诸多智能系统的应用效果。受客观环境因素限制，部分收集到的数据存在着样本量少，缺少标签等问题。对于这些数据，传统的数据处理方法的性能将会出现明显下降或者直接失效。若直接丢弃这些数据则会造成资源损失与浪费，降低了数据的有效利用率。迁移学习作为一种思想，为高效利用这些残缺的新数据提供了一种新的思路。

迁移学习旨在通过学习过的知识与新数据间的相似性，迁移相似的要素到新数据的处理过程中。依据迁移要素的不同，迁移学习大致分为基于实例的迁移、基于特征的迁移、基于模型的迁移及基于关系的迁移。其中基于特征的迁移主要迁移的是两个域间的统计特征，即通过一个特征变换对齐源域和目标域间的联合分布差异，然后在对齐后的两个域中迁移预测函数，从而完成对无标签、少样本的目标域数据的分类。由于真实环境中所产生的大数据往往是多属性的，需要在数据样本多种属性间进行联合分析才能更有效地发掘事物内的关联关系。针对高阶数据，传统的基于特征的迁移仅从某一阶上单一的特征进行考虑，将高阶多属性数据人为展开成一阶向量的形式，导致部分关键的空间特征丢失，从而降低了迁移以及最终分类的效果。

因此，在处理高阶多属性数据时，针对数据样本量少以及缺少标签等问题，提供一种结合张量表示及计算体系的，对高阶数据多个属性都进行特征迁移并保留关键空间特征的方法就显得尤为重要。

发明内容

本发明的发明目的在于：提供一种基于张量多属性特征迁移的分类方法，以解决现有的基于特征的迁移学习方法在处理高阶多属性数据时，不能从多种属性联合分析、导致部分关键的空间特征丢失，降低了迁移及最终分类的效果等问题。

本发明的一种基于张量多属性特征迁移的分类方法，包括下列步骤：

步骤S1、张量建模：将所有源域数据样本和目标域数据样本都表示成高阶张量的形式，得到源域数据样本张量

和目标域数据样本张量

其中源域数据样本为带标签的数据样本，目标域数据样本为无标签的数据样本；

步骤S2、伪标签获取：将源域所有数据样本的标签组成源域标签矩阵Y_s；使用源域样本张量

和其对应的源域标签矩阵Y_s训练一个分类器f_s()；对目标域数据样本张量

进行预测，获得对应的目标域伪标签矩阵

步骤S3、多属性特征迁移：根据源域数据样本张量

和目标域数据张量

结合源域标签矩阵Y_s和目标域伪标签矩阵

采用动态分布自适应方法依次迭代减小每一个特征阶上源域样本张量

和目标域样本张量

的联合分布差异；获得所有特征阶上联合分布差异都减小后的新源域样本张量

和目标域样本张量

步骤S4、标签更新：结合新源域样本张量

和其对应的源域标签矩阵Y_s再次训练一个简单的分类器

用于对目标域样本张量

进行预测，从而获取新目标域的标签；

步骤S5、重复步骤S3和S4，通过不断迭代获得更准确的标签，以实现对无标签目标域数据样本的分类。

进一步的，所述步骤S1建立张量模型的详细过程，包括如下步骤：

S1.1、对于一个数据样本量为a_s的源域样本集，每个单独的数据样本共有N个特征阶的源域，其所有数据样本的集合可以组成(N+1)阶的源域样本张量

其中I_n表示对于第n(1≤n≤N)个特征阶，每个数据样本在该阶上的维数为I_n，最后一阶则被称为样本数量阶；该源域中所有数据样本的标签可以组成源域标签矩阵

S1.2、对于一个数据样本量为a_t的目标域样本集，每个单独数据样本的特征阶数及每一个特征阶上的维数都与源域相同的目标域，其所有数据样本的集合可以组成(N+1)阶的目标域样本张量

更进一步的，所述步骤S3包括如下步骤：

S3.1、对源域样本张量

进行第n阶上的向量展开获得源域第n阶样本矩阵

其中k₀＝I₁×I₂×…×I_n×…×I_N；

S3.2、对目标域样本张量

进行第n阶上的向量展开获得目标域第n阶样本矩阵

S3.3、结合源域标签矩阵Y_s和目标域伪标签矩阵

计算源域第n阶样本矩阵X_{s_n}和目标域第n阶样本矩阵X_{t_n}的联合分布的最大均值差异距离MMD(P_s(X,Y),P_t(X,Y))；

S3.4、使用动态分布自适应方法缩短两者间的联合分布距离MMD(P_s(X,Y),P_t(X,Y))，并获得第n阶上的特征变换矩阵

其中k_n＝J₁×J₂×…×J_n-1×J_n×I_n+1× I_n×…×I_N，J_n为联合分布距离缩短后的新的数据样本在第n阶上的特征数；

S3.5、根据第n阶上的特征变换矩阵A_(n) ^T计算在第n阶上进行特征对齐后的新源域第n阶样本矩阵

以及新目标域第n阶样本矩阵

S3.6、在新源域第n阶样本矩阵

和新目标域第n阶样本矩阵

上分别执行第n阶向量展开的逆过程获得已对齐第n阶特征的新源域样本张量

以及新目标域样本张量

S3.7、迭代执行S3.1至S3.6直至完成从第1阶到第N阶的特征对齐并获得最终的新源域样本张量

以及新目标域样本张量

其中第 n次迭代完成时的最终结果

和

即是第(n+1)次迭代所使用的

和

由于采用了上述技术方案，本发明具有了以下有益效果：

本发明结合张量体系和基于特征的迁移方法实现了对无标签数据集的有效分类，首先通过张量建模的方式建立有标签源域和无标签目标域的张量模型，然后使用动态分布自适应方法对源域样本张量和目标域样本张量每一个特征阶迭代进行了特征对齐，实现了源域样本和目标域样本多属性间统计特征的迁移。相较于传统的特征迁移方法提高了对无标签目标域数据样本的分类准确率。

附图说明

图1为本发明流程图；

图2为实施例总体框架示意图；

图3为实施例对张量进行第1阶上的向量展开的示意图；

图4为实施例对张量进行第2阶上的向量展开的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

如图1所示，本发明提供的一种基于张量多属性特征迁移的分类方法，所涉及的核心步骤如下：

步骤S1、建立有标签源域数据样本和无标签目标域数据样本的张量模型；

步骤S2、通过源域样本张量以及标签训练一个分类器并用于目标域样本张量的预测获得目标域伪标签矩阵；

步骤S3、通过动态分布自适应方法对源域样本张量和目标域样本张量所有特征迭代进行了特征对齐，以实现源域样本和目标域样本多属性间统计特征的迁移；

步骤S4、在对齐后的源域样本张量上训练新的分类器并在对齐后的目标域样本张量上预测获得目标域数据样本分类结果。

基于上述分类过程，本实施例提供了详细的操作过程，参见图2，一种基于张量多属性特征迁移的分类方法，包括以下步骤：

步骤S1：张量建模

本具体实施方案中，所采用的两个域数据样本分别为样本量为2000的MNIST手写体图像以及样本量为1800的USPS手写体图像。两个域中每张图像的大小均为16×16像素，且均有10 个类别的标签。可构建有标签MNIST域迁移至无标签USPS域帮助USPS域建立标签，以及有标签USPS域迁移至无标签MNIST域帮助MNIST域建立标签两个迁移任务。

S1.1、当以MNIST域作为源域时，域中数据样本量为2000，每个单独的数据样本共有2 个特征阶，其所有数据样本的集合可以组成源域样本张量

S1.2、MNIST域中所有数据样本的标签可以组成源域标签矩阵

标签的值c 即代表了对应数据样本属于第c个分类(1≤c≤10)；

S1.3、此时USPS可以作为目标域，域中数据样本量为1800，每个单独的数据样本同样有 2个特征阶，其所有数据样本的集合可以组成目标域样本张量

步骤S2、伪标签获取。

S2.1、使用源域样本张量

和其对应的源域标签矩阵Y_s训练获得一个K近邻分类器f_s()；

S2.2、使用K近邻分类器f_s()对目标域样本张量

进行预测，获得对应的目标域伪标签矩阵

标签的值c即代表了分类器预测对应数据样本属于第C个分类(1≤c≤10)。

步骤S.3、多属性特征迁移

S3.1、参见图3，对源域样本张量

进行第1阶上的向量展开获得源域第1阶样本矩阵

其中k₀＝16×16＝256；

S3.2、对目标域样本张量

进行第1阶上的向量展开获得目标域第1阶样本矩阵

S3.3、结合源域标签矩阵Y_s和目标域伪标签矩阵

计算源域第1阶样本矩阵X_{s_1}和目标域第 1阶样本矩阵X_{t_1}的联合分布的最大均值差异距离为：

MMD(P_s(X,Y),P_t(X,Y))＝(1-μ₁)MMD(P_s(X),P_t(X))+μ₁MMD(P_s(Y|X),P_t(Y|X))

其中μ₁(0≤μ₁≤1)为第1阶上的平衡因子，代表了第1阶上边缘分布和条件分布所占比重的不同。a_s为源域样本量2000，a_t为目标域样本量1800，C为标签的总类别数10。a_s ^(c)表示在源域所有数据样本中标签属于第c个分类的样本量，a_t ^(c)表示在目标域所有数据样本中在S2.2中被预测属于第c个分类的样本量。

S3.4、令联合分布距离缩短后的新的数据样本的大小为6×6像素，则通过使用动态分布自适应方法缩短两者间的联合分布距离，并获得第1阶上的特征变换矩阵

有 k₁＝6×16＝96，6为联合分布距离缩短后的新的数据样本在第1阶上的特征数；

S3.5、根据第1阶上的特征变换矩阵A₍₁₎ ^T计算在第1阶上进行特征对齐后的新源域第1阶样本矩阵

及新目标域第1阶样本矩阵

S3.6、在新源域第1阶样本矩阵

和新目标域第1阶样本矩阵

上分别执行第1阶向量展开的逆过程获得已对齐第1阶特征的新源域样本张量

以及新目标域样本张量

S3.7、再次执行S3.1至S3.6的特征对齐步骤在第2阶上进行特征对齐并获得最终的新源域样本张量

以及新目标域样本张量

其中第2次迭代开始时所使用的

和

分别为第1次迭代中S3.6的结果

和

参见图4，在第2次迭代的S3.1至S3.2中，对

和

分别进行第2阶上的向量展开获得源域第2阶样本矩阵

以及目标域第2阶样本矩阵

其中k₁＝96。

在第2次迭代的S3.3中，计算源域第2阶样本矩阵X_{s_2}和目标域第2阶样本矩阵X_{t_2}的联合分布的最大均值差异距离为：

MMD(P_s(X，Y)，P_t(X，Y))＝(1-μ₂)MMD(P_s(X)，P_t(X))+μ₂MMD(P_s(Y|X)，P_t(Y|X))

其中μ₂(0≤μ₂≤1)为第2阶上的平衡因子，代表了第2阶上边缘分布和条件分布所占比重的不同。

在第2次迭代的S3.4中，同样使用动态分布自适应方法缩短两者间的联合分布距离，并获得第2阶上的特征变换矩阵

有k₂＝6×6＝36，6为联合分布距离缩短后的新的数据样本在第2阶上的特征数。

在第2次迭代的S3.5至S3.6中，先根据第2阶上的特征变换矩阵A₍₂₎ ^T计算在第2阶上进行特征对齐后的新源域第2阶样本矩阵

受新目标域第2阶样本矩阵

然后执行第2阶向量展开的逆过程获得已对齐所有特征阶特征的新源域样本张量

以及新目标域样本张量

步骤S4：标签更新

S4.1、使用新源域样本张量

和其对应的源域标签矩阵Y_s重新训练获得一个新的K近邻分类器

S4.2、使用新分类器

对新目标域样本张量

进行预测，获得对应的目标域伪标签矩阵

即获得目标域样本的分类结果；

S5、迭代执行S3以及S4更新目标域伪标签矩阵

共10次，其中某一次迭代完成时的获得的目标域伪标签矩阵

即是下一次迭代时计算联合分布差异时所使用的目标域标签矩阵。通过目标域伪标签矩阵中预测标签等于目标域数据样本实际标签的数量

除目标域数据样本总数a_t即可获得分类的准确率。

表1

表1展示了μ₁和μ₂不同取值时两个迁移任务的最终分类准确率，可以看到当迁移任务不同时，最终分类准确率最高的μ₁和μ₂值有所差异，说明了对多属性样本数据的迁移需要考虑到每一个特征阶上的差异。

在本具体实施方式中，通过结合张量表示以及计算体系迭代缩小源域数据样本和目标域数据样本所有特征阶上的分布差异。最终，在有标签MNIST域迁移至无标签USPS域的迁移任务中分类准确率达到76.06％，而当前动态分布自适应方法为73.11％；在有标签USPS域迁移至无标签MNIST域的迁移任务中分类准确率达到62.05％，而当前动态分布自适应方法为 61.95％，这充分说明了结合张量体系的对无标签高阶数据进行多属性特征迁移的分类方法具有良好的分类准确率，提升了人工智能在计算机视觉、强化学习领域、医疗技术领域、物流管理等诸多技术领域的应用效果。