CN110443273A - 一种用于自然图像跨类识别的对抗零样本学习方法 - Google Patents
一种用于自然图像跨类识别的对抗零样本学习方法 Download PDFInfo
- Publication number
- CN110443273A CN110443273A CN201910555572.9A CN201910555572A CN110443273A CN 110443273 A CN110443273 A CN 110443273A CN 201910555572 A CN201910555572 A CN 201910555572A CN 110443273 A CN110443273 A CN 110443273A
- Authority
- CN
- China
- Prior art keywords
- sample
- class
- projection
- pseudo label
- confrontation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种用于自然图像跨类识别的对抗零样本学习方法,包括在旧类的样本空间上求解初始投影学习问题,获得测试样本的初始伪标签;求解投影学习问题,使得学习到的投影能够具有更好的语义保持性质;根据学习到的投影,利用基于余弦距离的最近邻算法预测所有测试样本的伪标签;将伪标签注入投影学习问题,直到收敛;将收敛时的伪标签作为最终预测的标签,支持实现自然图像的分类。本发明通过一种新的对抗方法,有效的缓和了领域漂移问题,实现了跨类识别性能的提升。这种新的对抗方法是投影器和分类器之间的博弈。投影器期望学习一个具有好的语义保持性质的投影,而分类器期望获得高的分类准确率,两者博弈达到纳什均衡结束。
Description
技术领域
本发明属于自然图像的跨类识别技术领域,具体涉及一种对抗零样本学习方法。
背景技术
近年来,自然图像的分类取得了巨大的进步。由于深度学习技术的爆发,在很多基准数据集上,识别准确率实现了很大的提升。深度学习技术依赖于大量的训练样本,但是样本的标签须位于同一个标签空间中。在现实情况中,随着时间的推移,有很多新(未见过的)的类别出现,因此学习跨类识别模型是有必要的。零样本学习是近年来解决跨类识别的一个流行范式,在实际中被证明非常有效。尽管收集大量的带标签的新类样本是不切实际的或耗时的,但是可以收集到大量(离线)的旧(已见过的)类,这些旧类与新类之间有一定的相似性。将旧类的知识迁移至新类可以进行有效的新类识别。通过语义空间作为桥梁可以实现跨类迁移。但是,如果仅仅在旧类的空间中进行建模,然后用来预测新类样本,往往会出现领域漂移问题,即学习的模型在测试集上偏差大。
因此,本领域急切需要一种能缓和或解决领域漂移的零样本学习方法。
发明内容
为了解决上述技术问题,本发明提供了一种对抗零样本方法,它能有效的缓和领域漂移问题,从而实现跨类识别的性能提升。
本发明所采用的技术方案是一种用于自然图像跨类识别的对抗零样本学习方法,包括以下步骤:
步骤1,在旧类的样本空间上求解初始投影学习问题,获得测试样本的初始伪标签;
步骤2,求解投影学习问题,使得学习到的投影能够具有更好的语义保持性质;
步骤3,根据步骤2学习到的投影,利用基于余弦距离的最近邻算法预测所有测试样本的伪标签;
步骤4,将步骤3所得伪标签注入投影学习问题,返回步骤2,直到收敛后进入步骤5;
步骤5,将收敛时的伪标签作为最终预测的标签,支持实现自然图像的分类。
而且,步骤1中,在旧类的样本空间上求解初始投影学习问题,实现方式为求解以下最优化问题:
其中,Xs为旧类的样本的视觉特征,而As为旧类的语义特征,λ0和γ0为折衷参数,P表示要学习的投影矩阵,PT表示矩阵P的转置,||·||F表示矩阵的Frobenius范数;
该问题的相应Sylvester方程,利用Bartels-Stewart算法求解。
而且,步骤2中,求解投影学习问题,实现方式为求解最优化问题:
其中,nt表示目标域中样本总数,为目标域中第i个样本的视觉特征,为第i个样本的伪标签,为类别对应的语义表示,Xs和Xt分别为旧类和新类的样本的视觉特征,而As和At分别表示旧类和新类的样本的语义特征,λ>0为对抗系数,α>0和γ>0为折衷参数,
分布对齐项MMD2[PTXs,PTXt]求取如下,
MMD2[PTXs,PTXt]=Tr(PTXMXP),
其中,源域和目标域视觉特征的联合矩阵X=[Xs,Xt],Tr(·)表示矩阵的迹,矩阵M的(i,j)元为
其中,ns表示源域中所有样本的个数,nt表示目标域中样本的总数;
该问题的相应Sylvester方程,利用Bartels-Stewart算法求解。
而且,步骤3中,利用基于余弦距离的最近邻算法预测所有测试样本的伪标签,实现方式为,
对任意测试样本,将其投影至隐语义空间中,然后基于余弦距离找出距离最近的新类语义特征,从而得到伪标签。
本发明的有益效果为:
本发明提出一种新的对抗策略用于零样本学习。这种对抗策略描述为二玩家博弈,即投影器和分类器之间的博弈。投影器期望学习到的投影具有良好的语义保持性质,在旧类和新类空间中能兼顾学习投影的质量,而分类器期望达到高的分类准确率。最终学习到的投影将缓和领域漂移问题,从而提升自然图像跨类识别性能。
附图说明
图1为本发明实施例的对抗策略示意图。
图2为本发明实施例的对抗零样本学习方法原理示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的一种用于自然图像跨类识别的对抗零样本学习方法,包括以下步骤:
步骤1:在旧类的样本空间上求解初始投影学习问题,获得测试样本的初始伪标签。
实施例中,采集源域和目标域彩色自然图像,然后利用卷积神经网络技术提取自然图像的视觉特征,另外,利用自然语言处理方法得到每个类别的语义表示,在旧类(即来自源域的类别)的样本空间上求解初始投影学习问题,获得测试样本(即来自目标域的样本)的伪标签;卷积神经网络技术和自然语言处理方法可采用现有技术,本发明不予赘述。
具体实现为求解最优化问题:
其中,Xs为旧类的样本的视觉特征,而As为旧类的语义特征,λ0和γ0为折衷参数,P表示要学习的投影矩阵,PT表示矩阵P的转置,||·||F表示矩阵的Frobenius范数(即矩阵中所有元素的平方和之平方根)。这个问题最终为求一个Sylvester方程,利用Bartels-Stewart算法可以高效求解。
Bartels-Stewart算法为现有计算,可参见:R.H.Bartels andG.W.Stewart.Solution of the matrix equation ax-xb=c.Communications of theAcm,15(9):820–826,1972.
步骤2:求解投影学习问题,使得学习到的投影能够具有更好的语义保持性质;
请见图1,将新类(即来自目标域的类别)和旧类(即来自源域的类别)样本的视觉特征分别通过投影嵌入到隐语义空间中去并均加入重构约束,此外,本发明也要求分布对齐(即最小化源域和目标域的分布距离),这样,学习到的投影不会过于依赖旧类的空间,它会在新类和旧类空间中取得一个平衡。
投影学习能学习到一个具有好的语义保持的投影,从而缓和领域漂移问题,具体实现为求解最优化问题:
其中,nt表示目标域中样本总数,为目标域中第i个样本的视觉特征,为第i个样本的伪标签,为类别对应的语义表示,Xs和Xt分别为旧类和新类的样本的视觉特征,而As和At分别表示旧类和新类的样本的语义特征,λ>0为对抗系数,α>0和γ>0为折衷参数,
分布对齐项MMD2[PTXs,PTXt]求取如下,
MMD2[PTXs,PTXt]=Tr(PTXMXP),
这里,X=[Xs,Xt]为源域和目标域视觉特征的联合矩阵,Tr(·)表示矩阵的迹,矩阵M的(i,j)元为
其中,ns表示源域中所有样本的个数,nt表示目标域中样本的总数。
这个问题最终是求一个Sylvester方程的解,同样利用Bartels-Stewart算法可以高效求解。
步骤3:根据步骤2学习到的投影,利用基于余弦距离的最近邻算法预测所有测试样本的伪标签,即
其中,d表示余弦距离,
即d(y,z)=1-cos∠(y,z),y,z为m维向量,∠(y,z)表示两个向量的夹角;
为目标域里面的第i个样本,P为学习到的投影,Ct为目标域中所有类别的集合,为目标域中类别l的语义表示,而nt为目标域样本总数;
根据最近语义特征匹配求解为伪标签,具体实现为:
对任意测试样本,将其投影至隐语义空间中,然后基于余弦距离找出离它最近的新类语义特征,从而得到伪标签。
步骤4:将步骤3所得伪标签注入投影学习问题,返回步骤2,直到收敛(实施例的收敛条件为博弈达到纳什均衡状态),进入步骤5;
请见图2,根据基于余弦距离的最近邻算法获得的伪标签可用于矫正投影的学习,而投影学习又可以根据伪标签以及分布对齐(即最小化源域和目标域之间的分布距离)进一步学习具有良好的语义保持的投影。
步骤5:将收敛时所得的伪标签作为最终预测的标签,支持实现自然图像的分类。
以上是本发明涉及的对抗零样本学习算法的实现步骤。通过对抗策略,模型可以学习到具有好的语义保持的投影,它缓和了领域漂移问题,能提升跨类识别性能。
在具体实现的时候还有以下注意事项:
首先,初始化对最终性能有很大影响,推荐使用实施例中步骤1给定的初始化方案,这种初始化方案充分利用了先验信息。
其次,对于大数据集,MMD项的计算代价会很大,建议采用方法进行近似计算。
具体实施时,本发明可采用计算机软件计算实现自动运行流程。运行流程的装置也应当在保护范围内。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种用于自然图像跨类识别的对抗零样本学习方法,其特征在于,包括以下步骤:
步骤1,在旧类的样本空间上求解初始投影学习问题,获得测试样本的初始伪标签;
步骤2,求解投影学习问题,使得学习到的投影能够具有更好的语义保持性质;
步骤3,根据步骤2学习到的投影,利用基于余弦距离的最近邻算法预测所有测试样本的伪标签;
步骤4,将步骤3所得伪标签注入投影学习问题,返回步骤2,直到收敛后进入步骤5;
步骤5,将收敛时的伪标签作为最终预测的标签,支持实现自然图像的分类。
2.根据权利要求1所述的一种用于自然图像跨类识别的对抗零样本学习方法,其特征在于:步骤1中,在旧类的样本空间上求解初始投影学习问题,实现方式为求解以下最优化问题:
其中,Xs为旧类的样本的视觉特征,而As为旧类的语义特征,λ0和γ0为折衷参数,P表示要学习的投影矩阵,PT表示矩阵P的转置,||·||F表示矩阵的Frobenius范数;
该问题的相应Sylvester方程,利用Bartels-Stewart算法求解。
3.根据权利要求2所述的一种用于自然图像跨类识别的对抗零样本学习方法,其特征在于:步骤2中,求解投影学习问题,实现方式为求解最优化问题:
其中,nt表示目标域中样本总数,为目标域中第i个样本的视觉特征,为第i个样本的伪标签,为类别对应的语义表示,Xs和Xt分别为旧类和新类的样本的视觉特征,而As和At分别表示旧类和新类的样本的语义特征,λ>0为对抗系数,α>0和γ>0为折衷参数,
分布对齐项MMD2[PTXs,PTXt]求取如下,
MMD2[PTXs,PTXt]=Tr(PTXMXP),
其中,源域和目标域视觉特征的联合矩阵X=[Xs,Xt],Tr(·)表示矩阵的迹,矩阵M的(i,j)元为
其中,ns表示源域中所有样本的个数,nt表示目标域中样本的总数;
该问题的相应Sylvester方程,利用Bartels-Stewart算法求解。
4.根据权利要求1或2或3所述的一种用于自然图像跨类识别的对抗零样本学习方法,其特征在于:步骤3中,利用基于余弦距离的最近邻算法预测所有测试样本的伪标签,实现方式为,
对任意测试样本,将其投影至隐语义空间中,然后基于余弦距离找出距离最近的新类语义特征,从而得到伪标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910555572.9A CN110443273B (zh) | 2019-06-25 | 2019-06-25 | 一种用于自然图像跨类识别的对抗零样本学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910555572.9A CN110443273B (zh) | 2019-06-25 | 2019-06-25 | 一种用于自然图像跨类识别的对抗零样本学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443273A true CN110443273A (zh) | 2019-11-12 |
CN110443273B CN110443273B (zh) | 2022-06-14 |
Family
ID=68428282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910555572.9A Active CN110443273B (zh) | 2019-06-25 | 2019-06-25 | 一种用于自然图像跨类识别的对抗零样本学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443273B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418351A (zh) * | 2020-12-11 | 2021-02-26 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
CN112446591A (zh) * | 2020-11-06 | 2021-03-05 | 太原科技大学 | 一种用于学生综合能力评价的评价体系及零样本评价方法 |
CN113159081A (zh) * | 2020-01-23 | 2021-07-23 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140029839A1 (en) * | 2012-07-30 | 2014-01-30 | Xerox Corporation | Metric learning for nearest class mean classifiers |
CN106980876A (zh) * | 2017-03-13 | 2017-07-25 | 南京邮电大学 | 一种基于鉴别性样本属性学习的零样本图像识别方法 |
CN108564121A (zh) * | 2018-04-09 | 2018-09-21 | 南京邮电大学 | 一种基于自编码器的未知类别图像标签预测方法 |
CN109117860A (zh) * | 2018-06-27 | 2019-01-01 | 南京邮电大学 | 一种基于子空间投影和字典学习的图像分类方法 |
CN109784405A (zh) * | 2019-01-16 | 2019-05-21 | 山东建筑大学 | 基于伪标签学习和语义一致性的跨模态检索方法及系统 |
-
2019
- 2019-06-25 CN CN201910555572.9A patent/CN110443273B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140029839A1 (en) * | 2012-07-30 | 2014-01-30 | Xerox Corporation | Metric learning for nearest class mean classifiers |
CN106980876A (zh) * | 2017-03-13 | 2017-07-25 | 南京邮电大学 | 一种基于鉴别性样本属性学习的零样本图像识别方法 |
CN108564121A (zh) * | 2018-04-09 | 2018-09-21 | 南京邮电大学 | 一种基于自编码器的未知类别图像标签预测方法 |
CN109117860A (zh) * | 2018-06-27 | 2019-01-01 | 南京邮电大学 | 一种基于子空间投影和字典学习的图像分类方法 |
CN109784405A (zh) * | 2019-01-16 | 2019-05-21 | 山东建筑大学 | 基于伪标签学习和语义一致性的跨模态检索方法及系统 |
Non-Patent Citations (2)
Title |
---|
YANWEI FU等: "Transductive Multi-View Zero-Shot Learning", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
林克正等: "语义自编码结合关系网络的零样本图像识别算法", 《模式识别与人工智能》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159081A (zh) * | 2020-01-23 | 2021-07-23 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
WO2021147366A1 (zh) * | 2020-01-23 | 2021-07-29 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
CN112446591A (zh) * | 2020-11-06 | 2021-03-05 | 太原科技大学 | 一种用于学生综合能力评价的评价体系及零样本评价方法 |
CN112446591B (zh) * | 2020-11-06 | 2023-08-29 | 太原科技大学 | 一种用于学生综合能力评价的零样本评价方法 |
CN112418351A (zh) * | 2020-12-11 | 2021-02-26 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
CN112418351B (zh) * | 2020-12-11 | 2023-04-07 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110443273B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443273A (zh) | 一种用于自然图像跨类识别的对抗零样本学习方法 | |
Yin et al. | Adv-makeup: A new imperceptible and transferable attack on face recognition | |
Nie et al. | Pavement distress detection based on transfer learning | |
CN100440246C (zh) | 一种人脸特征点定位方法 | |
CN106529499A (zh) | 基于傅里叶描述子和步态能量图融合特征的步态识别方法 | |
CN109033938A (zh) | 一种基于可区分性特征融合的人脸识别方法 | |
CN104933428B (zh) | 一种基于张量描述的人脸识别方法及装置 | |
CN109035091A (zh) | 一种用于学生实验的打分方法、装置及设备 | |
CN106485227A (zh) | 一种基于视频面部表情的客户满意度分析方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN111783521B (zh) | 基于低秩先验引导的域不变信息分离的行人重识别方法 | |
CN108681689B (zh) | 基于生成对抗网络的帧率增强步态识别方法及装置 | |
CN110689000B (zh) | 一种基于生成复杂环境下车牌样本的车辆车牌识别方法 | |
CN109583357A (zh) | 一种改进lbp和轻量卷积神经网络级联的人脸识别方法 | |
Mountney et al. | Soft tissue tracking for minimally invasive surgery: Learning local deformation online | |
CN108171127A (zh) | 一种基于深度学习的发票自动识别方法 | |
CN109902018A (zh) | 一种智能驾驶系统测试案例的获取方法 | |
CN109801225A (zh) | 基于多任务全卷积神经网络的人脸网纹污迹去除方法 | |
CN109377429A (zh) | 一种人脸识别素质教育智慧评价系统 | |
CN107463954A (zh) | 一种模糊异谱图像的模板匹配识别方法 | |
CN109829428A (zh) | 基于改进YOLOv2的视频图像行人检测方法及系统 | |
Kim et al. | Discface: Minimum discrepancy learning for deep face recognition | |
CN108447082A (zh) | 一种基于联合学习关键点检测器的三维目标匹配方法 | |
CN114139616A (zh) | 一种基于不确定性感知的无监督域适应目标检测方法 | |
CN110598052A (zh) | 一种交通期望线的边绑定以及评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |