CN109558890B

CN109558890B - 基于自适应权重哈希循环对抗网络的零样本图像分类方法

Info

Publication number: CN109558890B
Application number: CN201811158795.3A
Authority: CN
Inventors: 冀中; 严江涛; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2023-03-31
Anticipated expiration: 2038-09-30
Also published as: CN109558890A

Abstract

一种基于自适应权重哈希循环对抗网络的零样本图像分类方法：将训练样本的视觉特征和文本语义类别特征分别进行循环对抗网络映射，得到对应的哈希码；将各特征的哈希码进行权重分配，建立自适应权重哈希模型；对自适应权重哈希模型进行训练和测试；为拟合函数，对编码函数进行重新参数化；将视觉特征和文本语义类别特征的哈希码分别进行映射，得到对应的编码；将伯努利变量变量重新参数化；通过映射将哈希码转换为另一模态特征，再由循环一致性对抗网络的生成器，转换为原模态视觉或者语义特征，使得循环一致性损失达到最小，从而实现跨模态零样本分类。本发明实现了不同模态的特征和对应类别进行知识迁移，提高了信息嵌入特征的表征能力。

Description

基于自适应权重哈希循环对抗网络的零样本图像分类方法

技术领域

本发明涉及一种零样本图像分类方法。特别是涉及一种基于自适应权重哈希循环对抗网络的零样本图像分类方法。

背景技术

自适应权重算法是一种基于格式塔互连(gestalt grouping)的机制而产生的一套权值分配原则。它主要是用于解释人类视觉系统如何判别前景和背景的方法。当观察一张图像时，显著的物体人们就会给予较多的关注，也就自然而然地把它当作前景，而其余不关注的部分就被当作背景。一开始人们观察一张图像时，只能获得前景的一部分，然后是通过对这一部分进行不断扩展和更为细致的研究，运用该机制对这一部分图像的像素进行权值分配，与中心像素越接近、颜色越相似的像素分配较大的权重，相反相距越远的、颜色越相异的分配较小权重。本发明运用的自适应权重哈希同样运用了该机制，在视觉特征和语义特征中给予相同的类别图像的特征以较大权重，相差越大的类别权重分配越低。

根据先验知识，人类具有来推断未见类别事物的能力，例如：一开始从未见过“大象”，但能根据“大象”的文本描述信息“大鼻子，两边大牙，像河马一样体型硕大”，对大象进行类别分类。受该推断能力的启发，零样本图像分类的目标是通过大量样本的学习，能够对训练阶段从未出现过的类别进行分类和表征。为有效地得到训练图像更多的特征信息，使高维视觉特征转化为低维语义特征中特征信息利用最大化，故使用循环对抗网络(CycleGAN)来训练权重哈希网络。

与传统的生成式对抗网络不同，CycleGAN解决了模型训练数据不成对的问题，将一类图片转换成另一类图片，即想要获取一个数据集的特征，却转化为另一个数据集的特征。该网络实际的目标就是学习两个映射，样本空间x到样本空间y的映射F和样本空间y到样本空间x的映射G，并要求F(G(y))≈y以及G(F(x))≈x，这样空间x的图片转换到Y空间后还可以转换回x空间，也杜绝了模型可以把所有X的图片都转换为Y空间中的同一张图片的特殊情况。

因此，在该网络的两个映射过程中加入自适应权重哈希学习可减少哈希编码的冗余性，利用网络的两个映射被分解为二进制代码生成H和从二进制代码重新生成输入的逆过程P，将两个哈希码对源域和目标域进行映射，极大地提高了相近图像类别在汉明空间的距离相似度，而使不同图像类别距离相差更远。

针对某些特定情况，为了将训练的图像和文本信息利用最大化，提出了自适应权重哈希循环一致性对抗学习，以达到零样本图像分类效果的目的。

零样本情况下，给定可见类样本集合S＝{(x_i,z_i,y_i),i＝1,2,3,…,n},x_i∈X_s为可见类视觉特征，z_i∈Z_s为可见类语义特征，y_i∈Y_s为可见类类别，n为可见类实例样本的数目。零样本分类的目的是通过给定的未见类视觉特征和文本语义特征来预测的未见类的类别y_j∈Y_u,j＝1,…,m,其中

m是未见类别的数目。/>

发明内容

本发明所要解决的技术问题是，提供一种能够实现不同模态的特征和对应类别进行知识迁移的基于自适应权重哈希循环对抗网络的零样本图像分类方法。

本发明所采用的技术方案是：一种基于自适应权重哈希循环对抗网络的零样本图像分类方法，包括如下步骤：

1)将训练样本的视觉特征x_i和文本语义类别特征x_t分别采用如下公式进行循环对抗网络映射H*，得到对应的哈希码h(x)：

其中x*是视觉特征或文本语义类别特征，W_h,v是自适应权重哈希的网络参数；

2)将步骤1)所生成的各特征的哈希码进行权重分配，建立自适应权重哈希模型；

3)对自适应权重哈希模型进行训练和测试；

4)为拟合函数q(h/x)，对编码函数p(h/x)进行重新参数化，

其中

B为汉明空间数据库；W为自适应权重；

5)将视觉特征x_i和文本语义类别特征x_t的哈希码分别采用如下公式进行p*映射，得到对应的编码p(h/x)：

将伯努利变量变量h_k(z),z∈(0,1)重新参数化：

其中ξ～μ(0,1)是任意变量，随机神经元被用于重新参数化二进制变量h，用

来替换/>

使函数参数收敛；

6)通过p*映射将哈希码转换为另一模态特征，

再由循环一致性对抗网络的生成器F或G，转换为原模态视觉或者语义特征，使得循环一致性损失达到最小，从而实现跨模态零样本分类。

步骤2)包括：

(1)定义自适应权重哈希模型的类元素权重层，生成自适应权重W；将步骤1)得到的哈希码h(x)和自适应权重W代入如下公式，得到类元素的权重ω(h_x)：

ω(h_x)＝W(C_X,:)·h_x,s.t.W≥0

其中h_x是x_*输出的哈希码，C_X是x_*的图像或者文本的类别索引，·指的是元素的内积；(2)定义权重汉明距离H(X_i,X_j)：

其中k为码字；二进制码b_k(x)＝sgn(h_k(x)-0.5),k＝1,…,q；h_k(x)表示各类别的哈希码；X_i,X_j表示不同的两个特征；

(3)定义三元权重排序损失函数

其中m是连续参数，该参数定义了这两个变量

之间相对相似度的边缘差异度量；/>

是公式

的权重欧几里得距离；

(4)定义训练时各个类别softmax损失：

其中，

是与j类别相差i距离的标签；θ_j是距离参数；θ_i是类别参数；

(5)用三元权重排序损失函数分别对

求偏导得到梯度：

其中I_C是指示函数，如果c为真，则I_C＝1，否则I_C＝0；

(6)用如下公式计算类元素权重层的梯度，从而更新自适应权重网络参数w

(7)由于softmax损失，计算θ_j的梯度为：

步骤3)所述的训练包括对自适应权重哈希模型输入：图像x，参数m后，进行如下过程：

(1)通过神经网络前向传播将图像x转变为h(x)；

(2)计算三元权重排序损失函数

(3)计算softmax损失L_C(θ)；

(4)计算

和L_C(θ)的梯度；

(5)联合训练第(4)步得到的梯度，通过神经网络反向传播不断更新自适应权重网络参数w，直到

和L_C(θ)都收敛；

(6)输出自适应权重网络参数w。

步骤3)所述的测试包括对自适应权重哈希模型输入自适应权重网络参数w，测试图像x_q，汉明空间数据库B后，进行如下过程：

(1)导入自适应权重W到类元素权重层；

(2)预测类别概率p(x_q)；

(3)生成对应哈希码h(x_q)；

(4)生成自适应权重w(x_q)，w_q＝W^Tp(x_q)；

(5)计算权重汉明距离H(X_i,X_q)；

(6)通过权重汉明距离大小分类图像；

(7)输出分类图像的哈希码。

本发明的基于自适应权重哈希循环对抗网络的零样本图像分类方法，主要优势体现在：

(1)新颖性：提出了一种新的通过自适应权重哈希CycleGAN的框架用于解决零样本分类问题。通过循环一致性对抗权重哈希网络，学习一种联合嵌入模型，从而实现了不同模态的特征和对应类别进行知识迁移。

(2)多模态性：本发明提出的自适应权重哈希CycleGAN的框架将视觉模态特征和类别标签的语义文本模态特征联合嵌入到权重的汉明空间中，在对抗学习的过程中，将样本嵌入特征和类别嵌入特征与类别标签结合，实现不同模态特征到类别的知识迁移。

(3)有效性：与传统的对抗网络学习方法不同，本发明所提出的算法主要是通过自适应权重哈希循环一致性来体现的，对抗学习的方式上也有本质的不同，本发明是将模态经过一系列映射后还是会回到原模态，使模态特征学习后的信息损失到尽可能小，极大地保留了样本特征的低维语义信息，提高了信息嵌入特征的表征能力，有利于最终达到零样本分类的目的。

(4)实用性：简单可行，操作方便。可广泛应用于许多零样本分类任务以及图像的检索、目标检测、语义描述和识别等问题的相关领域中。

附图说明

图1是本发明基于自适应权重哈希循环对抗网络的零样本图像分类方法的原理图；

图2是本发明使用的CycleGAN网络的映射原理图；

图3是对图1自适应权重哈希模型的具体实现过程图。

具体实施方式

下面结合实施例和附图对本发明的基于自适应权重哈希循环对抗网络的零样本图像分类方法做出详细说明。

本发明的基于自适应权重哈希循环对抗网络的零样本图像分类方法，因为跨模态生成哈希是通过哈希码对不同模态的目标对象进行翻译转换，因此其语义一致性的实现没有数据成对的约束限制。利用对抗网络先将视觉特征和文本特征做两个映射，全部映射到汉明空间后，通过自适应权重哈希算法进行分配，生成自适应权重，经过权重汉明距离后生成分类图像的哈希码，最后由循环一致性损失计算映射到的预测视觉特征和文本特征，从而较大地提高了跨模态多媒体信息的利用率。在该模型中，图像各特征先进入二进制码生成器H_*，之后引入了自适应深度权重哈希模型训练得到自适应权重W，通过权重W计算权重汉明距离H(X_i,X_j)，生成二进制哈希h_i,h_t，运用二进制码生成输入的逆过程P_*，由生成器F或G，返回原图像特征，最后通过循环一致性损失从而实现跨模态，达到零样本分类的目的。

如图1所示，本发明的基于自适应权重哈希循环对抗网络的零样本图像分类方法，包括如下步骤：

1)将训练样本的视觉特征x_i和文本语义类别特征x_t分别采用如下公式进行循环对抗网络映射H_*，得到对应的哈希码h(x)：

其中x_*是视觉特征或文本语义类别特征，W_h,v是自适应权重哈希的网络参数；

2)将步骤1)所生成的各特征的哈希码进行权重分配，建立自适应权重哈希模型；包括：

ω(h_x)＝W(C_X,:)·h_x,s.t.W≥0 (2)

其中h_x是x_*输出的哈希码，C_X是x_*的图像或者文本的类别索引，·指的是元素的内积；即，通过类元素权重得到类元素权重层，每张图像的哈希码与所对应的自适应类别权重相乘得到各特征x_*的类元素的权重ω(h_x)；

(2)定义权重汉明距离H(X_i,X_j)：

所得的汉明距离用权重欧几里得距离代替简化来计算量，

(3)定义三元权重排序损失函数

其中m是连续参数，该参数定义了这两个变量

之间相对相似度的边缘差异度量；/>

是公式

的权重欧几里得距离，不相似对/>

的距离大于相似对/>

的距离至少m；

(4)定义训练时各个类别softmax损失：

其中，

(5)用三元权重排序损失函数分别对

求偏导得到梯度：

其中I_C是指示函数，如果c为真，则I_C＝1，否则I_C＝0；

(7)由于softmax损失，计算θ_j的梯度为：

3)如图3所示，对自适应权重哈希模型进行训练和测试；使用BP神经网络反向传播更新权重网络参数W，并不断循环以上公式(19)(20)(21)，直至L_R和L_c收敛，最终输出自适应哈希权重的类元素权重w。然后代入参数w计算权重汉明距离，生成对应分类库图像哈希码。其中，

所述的训练包括对自适应权重哈希模型输入：图像x，参数m后，进行如下过程：

(1)通过神经网络前向传播将图像x转变为h(x)；

(2)计算三元权重排序损失函数

(3)计算softmax损失L_C(θ)；

(4)计算

和L_C(θ)的梯度；/>

和L_C(θ)都收敛；

(6)输出自适应权重网络参数w。

所述的测试包括对自适应权重哈希模型输入自适应权重网络参数w，测试图像x_q，汉明空间数据库B后，进行如下过程：

(1)导入自适应权重W到类元素权重层；

(2)预测类别概率p(x_q)；

(3)生成对应哈希码h(x_q)；

(4)生成自适应权重w(x_q)，w_q＝W^Tp(x_q)；

(5)计算权重汉明距离H(X_i,X_q)；

(6)通过权重汉明距离大小分类图像；

(7)输出分类图像的哈希码。

4)定义最大似然生成的输入x与对应二进制码h

P_i:h_i→x_t定义为p(x_t/h_i)

P_t:h_t→x_i定义为p(x_i/h_t)

p(x,h)＝p(x/h)p(h),p(x/h)＝N(Uh,ρ²I)满足简单高斯分布。

其中

是字典中的k个码字。

先验概率

满足多元哈希码伯努利分布，其中

为拟合函数q(h/x)，对编码函数p(h/x)进行重新参数化，

其中

B为汉明空间数据库；W为自适应权重；

将伯努利变量变量h_k(z),z∈(0,1)重新参数化：

来替换/>

通过离散随机神经元/>

来计算更为广义的分布导数来替代标准随机梯度下降算法，实现函数各参数的收敛；

6)如图2通过p*映射将哈希码转换为另一模态特征，

Claims

1.一种基于自适应权重哈希循环对抗网络的零样本图像分类方法，其特征在于，包括如下步骤：

ω(h_x)＝W(C_X,:)·h_x,s.t.W≥0

其中h_x是x_*输出的哈希码，C_X是x_*的图像或者文本的类别索引，·指的是元素的内积；

(2)定义权重汉明距离H(X_i,X_j)：

(3)定义三元权重排序损失函数

其中m是连续参数，该参数定义了这两个变量

之间相对相似度的边缘差异度量；/>

是公式/>

的权重欧几里得距离；

(4)定义训练时各个类别softmax损失：

其中，

(5)用三元权重排序损失函数分别对

求偏导得到梯度：

/>

其中I_C是指示函数，如果c为真，则I_C＝1，否则I_C＝0；

(7)由于softmax损失，计算θ_j的梯度为：

3)对自适应权重哈希模型进行训练和测试；其中，

(1)通过神经网络前向传播将图像x转变为h(x)；

(2)计算三元权重排序损失函数

(3)计算softmax损失L_C(θ)；

(4)计算

和L_C(θ)的梯度；

和L_C(θ)都收敛；

(6)输出自适应权重网络参数w；

(1)导入自适应权重W到类元素权重层；

(2)预测类别概率p(x_q)；

(3)生成对应哈希码h(x_q)；

(4)生成自适应权重w(x_q)，w_q＝W^Tp(x_q)；

(5)计算权重汉明距离H(X_i,X_q)；

(6)通过权重汉明距离大小分类图像；

(7)输出分类图像的哈希码；

4)为拟合函数q(h/x)，对编码函数p(h/x)进行重新参数化，

其中

B为汉明空间数据库；W为自适应权重；

5)将视觉特征x_i和文本语义类别特征x_t的哈希码分别采用如下公式进行p_*映射，得到对应的编码p(h/x)：

将伯努利变量变量h_k(z),z∈(0,1)重新参数化：

/>

来替换/>

使函数参数收敛；

6)通过p_*映射将哈希码转换为另一模态特征，