CN110443273A

CN110443273A - 一种用于自然图像跨类识别的对抗零样本学习方法

Info

Publication number: CN110443273A
Application number: CN201910555572.9A
Authority: CN
Inventors: 杜博; 刘友发; 张乐飞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-12
Anticipated expiration: 2039-06-25
Also published as: CN110443273B

Abstract

本发明提供一种用于自然图像跨类识别的对抗零样本学习方法，包括在旧类的样本空间上求解初始投影学习问题，获得测试样本的初始伪标签；求解投影学习问题，使得学习到的投影能够具有更好的语义保持性质；根据学习到的投影，利用基于余弦距离的最近邻算法预测所有测试样本的伪标签；将伪标签注入投影学习问题，直到收敛；将收敛时的伪标签作为最终预测的标签，支持实现自然图像的分类。本发明通过一种新的对抗方法，有效的缓和了领域漂移问题，实现了跨类识别性能的提升。这种新的对抗方法是投影器和分类器之间的博弈。投影器期望学习一个具有好的语义保持性质的投影，而分类器期望获得高的分类准确率，两者博弈达到纳什均衡结束。

Description

一种用于自然图像跨类识别的对抗零样本学习方法

技术领域

本发明属于自然图像的跨类识别技术领域，具体涉及一种对抗零样本学习方法。

背景技术

近年来，自然图像的分类取得了巨大的进步。由于深度学习技术的爆发，在很多基准数据集上，识别准确率实现了很大的提升。深度学习技术依赖于大量的训练样本，但是样本的标签须位于同一个标签空间中。在现实情况中，随着时间的推移，有很多新(未见过的)的类别出现，因此学习跨类识别模型是有必要的。零样本学习是近年来解决跨类识别的一个流行范式，在实际中被证明非常有效。尽管收集大量的带标签的新类样本是不切实际的或耗时的，但是可以收集到大量(离线)的旧(已见过的)类，这些旧类与新类之间有一定的相似性。将旧类的知识迁移至新类可以进行有效的新类识别。通过语义空间作为桥梁可以实现跨类迁移。但是，如果仅仅在旧类的空间中进行建模，然后用来预测新类样本，往往会出现领域漂移问题，即学习的模型在测试集上偏差大。

因此，本领域急切需要一种能缓和或解决领域漂移的零样本学习方法。

发明内容

为了解决上述技术问题，本发明提供了一种对抗零样本方法，它能有效的缓和领域漂移问题，从而实现跨类识别的性能提升。

本发明所采用的技术方案是一种用于自然图像跨类识别的对抗零样本学习方法，包括以下步骤：

步骤1，在旧类的样本空间上求解初始投影学习问题，获得测试样本的初始伪标签；

步骤2，求解投影学习问题，使得学习到的投影能够具有更好的语义保持性质；

步骤3，根据步骤2学习到的投影，利用基于余弦距离的最近邻算法预测所有测试样本的伪标签；

步骤4，将步骤3所得伪标签注入投影学习问题，返回步骤2，直到收敛后进入步骤5；

步骤5，将收敛时的伪标签作为最终预测的标签，支持实现自然图像的分类。

而且，步骤1中，在旧类的样本空间上求解初始投影学习问题，实现方式为求解以下最优化问题：

其中，X_s为旧类的样本的视觉特征，而A_s为旧类的语义特征，λ₀和γ₀为折衷参数，P表示要学习的投影矩阵，P^T表示矩阵P的转置，||·||_F表示矩阵的Frobenius范数；

该问题的相应Sylvester方程，利用Bartels-Stewart算法求解。

而且，步骤2中，求解投影学习问题，实现方式为求解最优化问题：

其中，n_t表示目标域中样本总数，为目标域中第i个样本的视觉特征，为第i个样本的伪标签，为类别对应的语义表示，X_s和X_t分别为旧类和新类的样本的视觉特征，而A_s和A_t分别表示旧类和新类的样本的语义特征，λ＞0为对抗系数，α＞0和γ＞0为折衷参数，

分布对齐项MMD²[P^TX_s,P^TX_t]求取如下，

MMD²[P^TX_s,P^TX_t]＝Tr(P^TXMXP)，

其中，源域和目标域视觉特征的联合矩阵X＝[X_s,X_t]，Tr(·)表示矩阵的迹，矩阵M的(i,j)元为

其中，n_s表示源域中所有样本的个数，n_t表示目标域中样本的总数；

该问题的相应Sylvester方程，利用Bartels-Stewart算法求解。

而且，步骤3中，利用基于余弦距离的最近邻算法预测所有测试样本的伪标签，实现方式为，

对任意测试样本，将其投影至隐语义空间中，然后基于余弦距离找出距离最近的新类语义特征，从而得到伪标签。

本发明的有益效果为：

本发明提出一种新的对抗策略用于零样本学习。这种对抗策略描述为二玩家博弈，即投影器和分类器之间的博弈。投影器期望学习到的投影具有良好的语义保持性质，在旧类和新类空间中能兼顾学习投影的质量，而分类器期望达到高的分类准确率。最终学习到的投影将缓和领域漂移问题，从而提升自然图像跨类识别性能。

附图说明

图1为本发明实施例的对抗策略示意图。

图2为本发明实施例的对抗零样本学习方法原理示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种用于自然图像跨类识别的对抗零样本学习方法，包括以下步骤：

步骤1：在旧类的样本空间上求解初始投影学习问题，获得测试样本的初始伪标签。

实施例中，采集源域和目标域彩色自然图像，然后利用卷积神经网络技术提取自然图像的视觉特征，另外，利用自然语言处理方法得到每个类别的语义表示，在旧类(即来自源域的类别)的样本空间上求解初始投影学习问题，获得测试样本(即来自目标域的样本)的伪标签；卷积神经网络技术和自然语言处理方法可采用现有技术，本发明不予赘述。

具体实现为求解最优化问题：

其中，X_s为旧类的样本的视觉特征，而A_s为旧类的语义特征，λ₀和γ₀为折衷参数，P表示要学习的投影矩阵，P^T表示矩阵P的转置，||·||_F表示矩阵的Frobenius范数(即矩阵中所有元素的平方和之平方根)。这个问题最终为求一个Sylvester方程，利用Bartels-Stewart算法可以高效求解。

Bartels-Stewart算法为现有计算，可参见：R.H.Bartels andG.W.Stewart.Solution of the matrix equation ax-xb＝c.Communications of theAcm,15(9):820–826,1972.

步骤2：求解投影学习问题，使得学习到的投影能够具有更好的语义保持性质；

请见图1，将新类(即来自目标域的类别)和旧类(即来自源域的类别)样本的视觉特征分别通过投影嵌入到隐语义空间中去并均加入重构约束，此外，本发明也要求分布对齐(即最小化源域和目标域的分布距离)，这样，学习到的投影不会过于依赖旧类的空间，它会在新类和旧类空间中取得一个平衡。

投影学习能学习到一个具有好的语义保持的投影，从而缓和领域漂移问题，具体实现为求解最优化问题：

分布对齐项MMD²[P^TX_s,P^TX_t]求取如下，

MMD²[P^TX_s,P^TX_t]＝Tr(P^TXMXP)，

这里，X＝[X_s,X_t]为源域和目标域视觉特征的联合矩阵，Tr(·)表示矩阵的迹，矩阵M的(i,j)元为

其中，n_s表示源域中所有样本的个数，n_t表示目标域中样本的总数。

这个问题最终是求一个Sylvester方程的解，同样利用Bartels-Stewart算法可以高效求解。

步骤3：根据步骤2学习到的投影，利用基于余弦距离的最近邻算法预测所有测试样本的伪标签，即

其中，d表示余弦距离，

即d(y,z)＝1-cos∠(y,z),y,z为m维向量，∠(y,z)表示两个向量的夹角；

为目标域里面的第i个样本，P为学习到的投影，C_t为目标域中所有类别的集合，为目标域中类别l的语义表示，而n_t为目标域样本总数；

根据最近语义特征匹配求解为伪标签，具体实现为：

对任意测试样本，将其投影至隐语义空间中，然后基于余弦距离找出离它最近的新类语义特征，从而得到伪标签。

步骤4：将步骤3所得伪标签注入投影学习问题，返回步骤2，直到收敛(实施例的收敛条件为博弈达到纳什均衡状态)，进入步骤5；

请见图2，根据基于余弦距离的最近邻算法获得的伪标签可用于矫正投影的学习，而投影学习又可以根据伪标签以及分布对齐(即最小化源域和目标域之间的分布距离)进一步学习具有良好的语义保持的投影。

步骤5：将收敛时所得的伪标签作为最终预测的标签，支持实现自然图像的分类。

以上是本发明涉及的对抗零样本学习算法的实现步骤。通过对抗策略，模型可以学习到具有好的语义保持的投影，它缓和了领域漂移问题，能提升跨类识别性能。

在具体实现的时候还有以下注意事项：

首先，初始化对最终性能有很大影响，推荐使用实施例中步骤1给定的初始化方案，这种初始化方案充分利用了先验信息。

其次，对于大数据集，MMD项的计算代价会很大，建议采用方法进行近似计算。

具体实施时，本发明可采用计算机软件计算实现自动运行流程。运行流程的装置也应当在保护范围内。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种用于自然图像跨类识别的对抗零样本学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于自然图像跨类识别的对抗零样本学习方法，其特征在于：步骤1中，在旧类的样本空间上求解初始投影学习问题，实现方式为求解以下最优化问题：

该问题的相应Sylvester方程，利用Bartels-Stewart算法求解。

3.根据权利要求2所述的一种用于自然图像跨类识别的对抗零样本学习方法，其特征在于：步骤2中，求解投影学习问题，实现方式为求解最优化问题：

分布对齐项MMD²[P^TX_s,P^TX_t]求取如下，

MMD²[P^TX_s,P^TX_t]＝Tr(P^TXMXP)，

该问题的相应Sylvester方程，利用Bartels-Stewart算法求解。

4.根据权利要求1或2或3所述的一种用于自然图像跨类识别的对抗零样本学习方法，其特征在于：步骤3中，利用基于余弦距离的最近邻算法预测所有测试样本的伪标签，实现方式为，