CN115019084A - 一种基于张量多属性特征迁移的分类方法 - Google Patents
一种基于张量多属性特征迁移的分类方法 Download PDFInfo
- Publication number
- CN115019084A CN115019084A CN202210529783.7A CN202210529783A CN115019084A CN 115019084 A CN115019084 A CN 115019084A CN 202210529783 A CN202210529783 A CN 202210529783A CN 115019084 A CN115019084 A CN 115019084A
- Authority
- CN
- China
- Prior art keywords
- sample
- tensor
- domain
- order
- target domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000005012 migration Effects 0.000 title claims abstract description 38
- 238000013508 migration Methods 0.000 title claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004904 shortening Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 abstract description 4
- 238000013526 transfer learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及迁移学习和张量领域,具体为一种基于张量多属性特征迁移的分类方法;该方法结合张量体系和基于特征的迁移方法实现了对无标签数据集的有效分类。分类过程中,首先通过张量建模的方式建立有标签源域和无标签目标域的张量模型,然后使用动态分布自适应方法对源域样本张量和目标域样本张量每一个特征阶迭代进行了特征对齐,实现了源域样本和目标域样本多属性间统计特征的迁移。相较于传统的特征迁移方法提高了对无标签目标域数据样本的分类准确率。
Description
技术领域
本发明涉及迁移学习和张量领域,具体涉及一种基于张量多属性特征迁移的分类方法。
背景技术
随着大数据时代的来临,能否对收集到的数据及时有效的处理影响生产生活中诸多智能 系统的应用效果。受客观环境因素限制,部分收集到的数据存在着样本量少,缺少标签等问 题。对于这些数据,传统的数据处理方法的性能将会出现明显下降或者直接失效。若直接丢 弃这些数据则会造成资源损失与浪费,降低了数据的有效利用率。迁移学习作为一种思想, 为高效利用这些残缺的新数据提供了一种新的思路。
迁移学习旨在通过学习过的知识与新数据间的相似性,迁移相似的要素到新数据的处理 过程中。依据迁移要素的不同,迁移学习大致分为基于实例的迁移、基于特征的迁移、基于 模型的迁移及基于关系的迁移。其中基于特征的迁移主要迁移的是两个域间的统计特征,即 通过一个特征变换对齐源域和目标域间的联合分布差异,然后在对齐后的两个域中迁移预测 函数,从而完成对无标签、少样本的目标域数据的分类。由于真实环境中所产生的大数据往 往是多属性的,需要在数据样本多种属性间进行联合分析才能更有效地发掘事物内的关联关 系。针对高阶数据,传统的基于特征的迁移仅从某一阶上单一的特征进行考虑,将高阶多属 性数据人为展开成一阶向量的形式,导致部分关键的空间特征丢失,从而降低了迁移以及最 终分类的效果。
因此,在处理高阶多属性数据时,针对数据样本量少以及缺少标签等问题,提供一种结 合张量表示及计算体系的,对高阶数据多个属性都进行特征迁移并保留关键空间特征的方法 就显得尤为重要。
发明内容
本发明的发明目的在于:提供一种基于张量多属性特征迁移的分类方法,以解决现有的 基于特征的迁移学习方法在处理高阶多属性数据时,不能从多种属性联合分析、导致部分关 键的空间特征丢失,降低了迁移及最终分类的效果等问题。
本发明的一种基于张量多属性特征迁移的分类方法,包括下列步骤:
步骤S3、多属性特征迁移:根据源域数据样本张量和目标域数据张量结合源域标 签矩阵Ys和目标域伪标签矩阵采用动态分布自适应方法依次迭代减小每一个特征阶上源域 样本张量和目标域样本张量的联合分布差异;获得所有特征阶上联合分布差异都减小 后的新源域样本张量和目标域样本张量
步骤S5、重复步骤S3和S4,通过不断迭代获得更准确的标签,以实现对无标签目标域数 据样本的分类。
进一步的,所述步骤S1建立张量模型的详细过程,包括如下步骤:
S1.1、对于一个数据样本量为as的源域样本集,每个单独的数据样本共有N个特征阶的源 域,其所有数据样本的集合可以组成(N+1)阶的源域样本张量其 中In表示对于第n(1≤n≤N)个特征阶,每个数据样本在该阶上的维数为In,最后一阶则被称 为样本数量阶;该源域中所有数据样本的标签可以组成源域标签矩阵
更进一步的,所述步骤S3包括如下步骤:
S3.4、使用动态分布自适应方法缩短两者间的联合分布距离MMD(Ps(X,Y),Pt(X,Y)),并 获得第n阶上的特征变换矩阵其中kn=J1×J2×…×Jn-1×Jn×In+1× In×…×IN,Jn为联合分布距离缩短后的新的数据样本在第n阶上的特征数;
由于采用了上述技术方案,本发明具有了以下有益效果:
本发明结合张量体系和基于特征的迁移方法实现了对无标签数据集的有效分类,首先通 过张量建模的方式建立有标签源域和无标签目标域的张量模型,然后使用动态分布自适应方 法对源域样本张量和目标域样本张量每一个特征阶迭代进行了特征对齐,实现了源域样本和 目标域样本多属性间统计特征的迁移。相较于传统的特征迁移方法提高了对无标签目标域数 据样本的分类准确率。
附图说明
图1为本发明流程图;
图2为实施例总体框架示意图;
图3为实施例对张量进行第1阶上的向量展开的示意图;
图4为实施例对张量进行第2阶上的向量展开的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作 进一步地详细描述。
如图1所示,本发明提供的一种基于张量多属性特征迁移的分类方法,所涉及的核心步骤 如下:
步骤S1、建立有标签源域数据样本和无标签目标域数据样本的张量模型;
步骤S2、通过源域样本张量以及标签训练一个分类器并用于目标域样本张量的预测获得 目标域伪标签矩阵;
步骤S3、通过动态分布自适应方法对源域样本张量和目标域样本张量所有特征迭代进行 了特征对齐,以实现源域样本和目标域样本多属性间统计特征的迁移;
步骤S4、在对齐后的源域样本张量上训练新的分类器并在对齐后的目标域样本张量上预 测获得目标域数据样本分类结果。
基于上述分类过程,本实施例提供了详细的操作过程,参见图2,一种基于张量多属性特 征迁移的分类方法,包括以下步骤:
步骤S1:张量建模
本具体实施方案中,所采用的两个域数据样本分别为样本量为2000的MNIST手写体图像 以及样本量为1800的USPS手写体图像。两个域中每张图像的大小均为16×16像素,且均有10 个类别的标签。可构建有标签MNIST域迁移至无标签USPS域帮助USPS域建立标签,以及有 标签USPS域迁移至无标签MNIST域帮助MNIST域建立标签两个迁移任务。
步骤S2、伪标签获取。
步骤S.3、多属性特征迁移
MMD(Ps(X,Y),Pt(X,Y))=(1-μ1)MMD(Ps(X),Pt(X))+μ1MMD(Ps(Y|X),Pt(Y|X))
其中μ1(0≤μ1≤1)为第1阶上的平衡因子,代表了第1阶上边缘分布和条件分布所占比 重的不同。as为源域样本量2000,at为目标域样本量1800,C为标签的总类别数10。as (c)表 示在源域所有数据样本中标签属于第c个分类的样本量,at (c)表示在目标域所有数据样本中 在S2.2中被预测属于第c个分类的样本量。
S3.4、令联合分布距离缩短后的新的数据样本的大小为6×6像素,则通过使用动态分布自 适应方法缩短两者间的联合分布距离,并获得第1阶上的特征变换矩阵有 k1=6×16=96,6为联合分布距离缩短后的新的数据样本在第1阶上的特征数;
在第2次迭代的S3.3中,计算源域第2阶样本矩阵Xs_2和目标域第2阶样本矩阵Xt_2的联合 分布的最大均值差异距离为:
MMD(Ps(X,Y),Pt(X,Y))=(1-μ2)MMD(Ps(X),Pt(X))+μ2MMD(Ps(Y|X),Pt(Y|X))
其中μ2(0≤μ2≤1)为第2阶上的平衡因子,代表了第2阶上边缘分布和条件分布所占比 重的不同。
步骤S4:标签更新
S5、迭代执行S3以及S4更新目标域伪标签矩阵共10次,其中某一次迭代完成时的获得 的目标域伪标签矩阵即是下一次迭代时计算联合分布差异时所使用的目标域标签矩阵。通 过目标域伪标签矩阵中预测标签等于目标域数据样本实际标签的数量除目标域数据样本总 数at即可获得分类的准确率。
表1
表1展示了μ1和μ2不同取值时两个迁移任务的最终分类准确率,可以看到当迁移任务不 同时,最终分类准确率最高的μ1和μ2值有所差异,说明了对多属性样本数据的迁移需要考虑 到每一个特征阶上的差异。
在本具体实施方式中,通过结合张量表示以及计算体系迭代缩小源域数据样本和目标域 数据样本所有特征阶上的分布差异。最终,在有标签MNIST域迁移至无标签USPS域的迁移 任务中分类准确率达到76.06%,而当前动态分布自适应方法为73.11%;在有标签USPS域迁 移至无标签MNIST域的迁移任务中分类准确率达到62.05%,而当前动态分布自适应方法为 61.95%,这充分说明了结合张量体系的对无标签高阶数据进行多属性特征迁移的分类方法具 有良好的分类准确率,提升了人工智能在计算机视觉、强化学习领域、医疗技术领域、物流 管理等诸多技术领域的应用效果。
Claims (3)
1.一种基于张量多属性特征迁移的分类方法,其特征在于:包括如下步骤:
步骤S3、多属性特征迁移:根据源域数据样本张量和目标域数据张量结合源域标签矩阵Ys和目标域伪标签矩阵采用动态分布自适应方法依次迭代减小每一个特征阶上源域样本张量和目标域样本张量的联合分布差异;获得所有特征阶上联合分布差异都减小后的新源域样本张量和目标域样本张量
步骤S5、重复步骤S3和S4,通过不断迭代获得更准确的标签,以实现对无标签目标域数据样本的分类。
3.根据权利要求2所述的一种基于张量多属性特征迁移的分类方法,其特征在于:所述步骤S3包括如下步骤:
S3.4、使用动态分布自适应方法缩短两者间的联合分布距离MMD(Ps(X,Y),Pt(X,Y)),并获得第n阶上的特征变换矩阵其中kn=J1×J2×…×Jn-1×Jn×In+1×In×…×In,Jn为联合分布距离缩短后的新的数据样本在第n阶上的特征数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529783.7A CN115019084B (zh) | 2022-05-16 | 2022-05-16 | 一种基于张量多属性特征迁移的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529783.7A CN115019084B (zh) | 2022-05-16 | 2022-05-16 | 一种基于张量多属性特征迁移的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019084A true CN115019084A (zh) | 2022-09-06 |
CN115019084B CN115019084B (zh) | 2024-05-28 |
Family
ID=83069637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210529783.7A Active CN115019084B (zh) | 2022-05-16 | 2022-05-16 | 一种基于张量多属性特征迁移的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019084B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895177A (zh) * | 2017-11-17 | 2018-04-10 | 南京邮电大学 | 一种保持图像分类稀疏结构的迁移分类学习方法 |
US20180158078A1 (en) * | 2016-12-05 | 2018-06-07 | Institute For Information Industry | Computer device and method for predicting market demand of commodities |
US20180253627A1 (en) * | 2017-03-06 | 2018-09-06 | Xerox Corporation | Conditional adaptation network for image classification |
CN108537168A (zh) * | 2018-04-09 | 2018-09-14 | 云南大学 | 基于迁移学习技术的面部表情识别方法 |
CN110516557A (zh) * | 2019-08-01 | 2019-11-29 | 电子科技大学 | 基于低秩张量分解的多样本人脸表情识别方法 |
CN111144458A (zh) * | 2019-12-13 | 2020-05-12 | 重庆交通大学 | 子空间嵌入特征分布对齐的不同工况下机械故障识别方法 |
CN111442926A (zh) * | 2020-01-11 | 2020-07-24 | 哈尔滨理工大学 | 一种基于深层特征迁移的变负载下不同型号滚动轴承故障诊断方法 |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
WO2022095356A1 (zh) * | 2020-11-05 | 2022-05-12 | 平安科技(深圳)有限公司 | 用于图像分类的迁移学习方法、相关装置及存储介质 |
-
2022
- 2022-05-16 CN CN202210529783.7A patent/CN115019084B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180158078A1 (en) * | 2016-12-05 | 2018-06-07 | Institute For Information Industry | Computer device and method for predicting market demand of commodities |
US20180253627A1 (en) * | 2017-03-06 | 2018-09-06 | Xerox Corporation | Conditional adaptation network for image classification |
CN107895177A (zh) * | 2017-11-17 | 2018-04-10 | 南京邮电大学 | 一种保持图像分类稀疏结构的迁移分类学习方法 |
CN108537168A (zh) * | 2018-04-09 | 2018-09-14 | 云南大学 | 基于迁移学习技术的面部表情识别方法 |
CN110516557A (zh) * | 2019-08-01 | 2019-11-29 | 电子科技大学 | 基于低秩张量分解的多样本人脸表情识别方法 |
CN111144458A (zh) * | 2019-12-13 | 2020-05-12 | 重庆交通大学 | 子空间嵌入特征分布对齐的不同工况下机械故障识别方法 |
CN111442926A (zh) * | 2020-01-11 | 2020-07-24 | 哈尔滨理工大学 | 一种基于深层特征迁移的变负载下不同型号滚动轴承故障诊断方法 |
WO2022095356A1 (zh) * | 2020-11-05 | 2022-05-12 | 平安科技(深圳)有限公司 | 用于图像分类的迁移学习方法、相关装置及存储介质 |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
HUA WANG等: "Dyadic transfer learning for cross-domain image classification", 《2011 INTERNATIONAL CONFERENCE ON COMPUTER VISION》, 12 January 2012 (2012-01-12) * |
叶嘉林: "基于张量的高阶迁移学习模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2023 (2023-01-15), pages 138 - 2330 * |
赵鹏;王美玉;纪霞;刘慧婷;: "基于张量表示的域适配的迁移学习中特征表示方法", 电子学报, no. 02, 15 February 2020 (2020-02-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN115019084B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241282B (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
Wyatt et al. | Prionn: Predicting runtime and io using neural networks | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN116644755B (zh) | 基于多任务学习的少样本命名实体识别方法、装置及介质 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN109447096B (zh) | 一种基于机器学习的扫视路径预测方法和装置 | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、系统和装置 | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
CN111239137B (zh) | 基于迁移学习与自适应深度卷积神经网络的谷物质量检测方法 | |
CN114154578A (zh) | 面向非平衡数据基于半监督分布式训练的任务识别方法 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN113568747A (zh) | 基于任务分类与时序预测的云机器人资源调度方法及系统 | |
CN113569955A (zh) | 一种模型训练方法、用户画像生成方法、装置及设备 | |
CN115019084B (zh) | 一种基于张量多属性特征迁移的分类方法 | |
CN111753995A (zh) | 一种基于梯度提升树的局部可解释方法 | |
CN111553475A (zh) | 一种基于随机嵌入技术的高维多模式演化优化方法 | |
CN113835964B (zh) | 基于小样本学习的云数据中心服务器能耗预测方法 | |
CN116151581A (zh) | 一种柔性车间调度方法、系统及电子设备 | |
CN115797642A (zh) | 基于一致性正则化与半监督领域自适应图像语义分割算法 | |
CN115439710A (zh) | 基于组合迁移学习的遥感样本标注方法 | |
CN112199287B (zh) | 基于强化混合专家模型的跨项目软件缺陷预测方法 | |
CN109919200B (zh) | 一种基于张量分解和域适应的图像分类方法 | |
CN113610106B (zh) | 模型间的特征兼容学习方法、装置、电子设备及介质 | |
CN113673555B (zh) | 一种基于记忆体的无监督域适应图片分类方法 | |
Laptev et al. | Deepcast: Universal Time-Series Forecaster |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |