CN108959522A

CN108959522A - 基于半监督对抗生成网络的迁移检索方法

Info

Publication number: CN108959522A
Application number: CN201810689362.4A
Authority: CN
Inventors: 何霞; 汤平; 汤一平; 王丽冉; 陈朋; 袁公萍
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-04-26
Filing date: 2018-06-28
Publication date: 2018-12-07
Anticipated expiration: 2038-06-28
Also published as: CN108959522B

Abstract

一种基于半监督对抗生成网络的迁移检索方法，通过设计对抗生成网络进行跨数据域的哈希检索，其目标是将原始数据集和目标数据集映射到一个共同的汉明空间，使得在一个特定场景中图像检索通过半监督对抗生成网络的学习可迁移到另一场景的检索图像中，从而解决大数据时代下无法充分利用未标记的数据和检索模型只适合单一场景的问题。本发明有效提高图像检索的自动化和智能化水平。

Description

基于半监督对抗生成网络的迁移检索方法

技术领域

本发明涉及计算机视觉、模式识别、对抗生成网络、迁移检索、循环一致性、深度自编码卷积神经网络和深度学习技术在图像检索领域的应用，尤其涉及一种基于半监督对抗生成网络的迁移检索方法。

背景技术

在web2.0时代，每日产生海量的图像、文本、音频数据，如何在这些浩瀚且无标注的数据中快速、准确地查询用户需要或感兴趣的图像，成为多媒体信息检索领域研究的热点。随着人工智能的不断发展，卷积神经网络的层数不断加深，无论图像数据、文本数据、音频数据都可通过训练，使其能将大量的有标签数据中学习到精准的从输入到输出的映射。

迁移学习的目的是将从一个场景中学到的知识用来解决另一个场景中的任务。在现实生活中存在一些特定的应用，比如行人重识别问题，重识别任务旨在搜索查询的相关图像，在某些情况下，原始数据域充分注释，具有ID标签，但是因为昂贵的标记过程和当在一个数据集上训练的模型直接在另一个数据集上使用时，由于数据集的原因，重新识别的准确性急剧下降。因此，当前的完全监督的单域re-ID方法在现实世界的场景中可能会受到限制，而在这些场景中，特定域的标签是不可用的。比如车辆的跨数据域检索问题，当在某个场景下训练好的模型使用到另一场景时，车辆检索变得不可信。

综上所述，目前的检索任务主要存在以下局限：1)大数据时代的海量数据，严重依赖人工标记数据难以获取大规模的有标签训练数据；2)如何训练一个模型使其能应用于不同环境；3)如何构建一种网络实现跨数据域的智能和快速的车辆检索；4)如何通过训练网络模型使得相似图像之间的距离减小，不相似图像之间的距离增大；

发明内容

为了克服现有的图像检索技术中需要依靠大量的人工标注数据、对已存在的检索模型只适合单一场景、没有有效利用海量未标注数据的不足，本发明提出了一种基于半监督对抗生成网络的迁移检索方法，通过设计一种新颖的对抗生成网络进行跨数据预的哈希检索，如不同数据库下、摄像头下或不同场景下数据，其目标是将原始数据集和目标数据集映射到一个共同的汉明空间；利用循环一致网络保持相似图像之间的相似性，并加入边缘超参数，使得相似图像之间的距离减小，不相似图像之间的距离增大；从而实现跨数据域的智能和快速的图像检索满足大数据时代背景下的图像检索需求。

为了解决上述技术问题，本发明提供如下的技术方案：

一种基于半监督对抗生成网络的迁移检索方法，包括以下步骤：

1)构建对抗生成网络进行跨数据模式下的哈希检索，如不同数据库下、摄像头下或不同场景下数据，其目标是将原始数据集和目标数据集映射到一个共同的汉明空间，从而实现跨空间域的智能和快速的图像检索；

2)利用步骤1)中适用于迁移检索的对抗生成网络，生成模型从原始数据集和目标数据集随机选取数据对并生成最有利于标记的数据对，判别模型用于区分生成模型选出的数据对是否为真实相似的数据对；

3)利用循环一致网络保持相似图像之间的相似性；

4)根据步骤2)中的判别模型加入边缘超参数，使得相似图像之间的距离减小，不相似图像之间的距离增大；

5)在训练判别模型的阶段固定生成模型的参数，反之，在训练生成模型的阶段固定判别模型的参数；

6)利用步骤5)中得到的判别模型提取检索需要的特征。

进一步，所述的对抗网络模型包含生成模型和判别模型，生成模型分别接收来自原始数据中的有标签图像和目标数据中的无标签图像，生成模型同时也接收来自原始数据集中的真实相似图像对，从而生成最有利于标记的数据对；判别模型将生成模型生成的数据对和原始真实相似图像对作为输入，并区分是生成图像对还是真实图像对，这两个模型在训练过程中扮演着对抗的角色，最后将判别模型作为跨数据域的特征提取模型用于检索任务；

在基于半监督对抗生成网络的迁移检索方法中，使用I_s表示有标签的原始数据集，I_t表示无标签的目标数据集，合并两个数据集为D＝{I_s,I_t},(I_s,I_t)∈R，合并数据集D可划分为D_train和D_q，其中D_train是检索数据集，D_q是查询数据集；检索数据库D_train也作为网络训练数据集，包含了有标签数据集其中n表示有标签的数据集大小，中的类别标签可表示为以及无标签数据集其中m表示无标签数据的大小，m＞＞n；查询数据集D_q＝{I_s,I_t}，其中基于半监督对抗生成网络的目标是训练两个映射方程和两个映射将原始数据集合目标数据映射到一个共同的汉明空间中，实现图像的迁移检索；通过学习映射函数给出任一数据集中的图像，通过快速汉明距离测量来检索另一数据集中的语义相似图像。

再进一步，生成模型分为两条路径，分别接收原始数据集中的图像和目标数据集中的图像，两条路径结构相同，都包含特征提取层和哈希码映射层，采用深度卷积网络提取图像的特征并使用预训练模型为深度卷积网络提供参数，在训练阶段固定深度卷积网络的参数不变，因为半监督对抗生成网络的目标是学习两个哈希映射方程，在此使用VGG16网络作为图像的特征提取网络；哈希码映射层的结构在两条路径中也是相同的，并且它由两个完全连接的层组成；第一个完全连接的层充当一个中间层，将特定于模态的特征映射到一个公共空间；第二个完全连接层用作哈希函数，它将中间特征进一步映射为哈希码：

h(x)＝sigmoid(W^Tf(x)+b) (1)

其中f(x)表示第一层全连接层从VGG16最后一层提取的特征，W表示第二层全连接层的参数，b表示偏置；在两条路径中，最后一层全连接层的维度设置为与哈希码长度q相同；在全连接层中f(x)被映射到[0,1]^q之间，因此公式(1)中的h(x)∈[0,1]^q，为了得到图像的稀疏编码将h(x)送入阈值分段函数进行二值化，公式如下：

通过哈希码映射层，原始数据集和目标数据集的特征被映射到相同维度的汉明空间，以便通过快速的汉明距离计算测量不同数据集之间的相似度；生成模型的输入由标记数据和未标记数据组成，生成模型的目标是在给出对一个数据集的查询时，选择位于边缘附近的另一个数据集的信息性未标记数据；

对抗模型分为两条路径，且对抗网络和生成网络是对称的，因此具体的网络结构与生成网络结构相同；判别模型的输入是生成模型生成的最具有标记意义的相关对，以及从标记图像中抽取的真实相关对，区分模型的目标是区分输入对是生成还是真实对；

更进一步，对抗生成网络的原理是非此即彼的胜负游戏，当从原始数据集中随机选取一张图像，生成模型试图从目标数据集中选取一张图像作为相似图像对从而欺骗判别模型，而判别模型尽量区分是真实相似图像对还是生成模型生成的相似图像对；对抗损失函数被定义为公式(3)：

其中，假设在原始数据集中与图像i^L相似的图像有I_similar＝{i₁,i₂,...,i_t}，在给定查询图像i^L的情况下，p(i_t|i^L)和p(i^U|i^L)表示当从I_similar中选取有标签图像i^t，生成模型从目标数据集中选取无标签数据i^U，生成模型的目标是近似不同数据集之间的图像真实分布；在判别模型中f_φ(i_t,i^L)和f_φ(i^U,i^L)，试图预测给定图像i_t和候选图像i^U对的相关性分数；区分模型的输入包括由语义标签抽样的真实对，以及来自生成模型的生成对；区分模型的目标是尽可能准确地区分由语义标签抽样的真实对和生成模型生成的相似对；

生成模型G即p(i^U)的形式如公式(4)所示：

其中dis(,)表示余弦距离公式，如公式(5)所示：

h(ξ)表示从生成网络两条路径的哈希映射函数中提取到的特征，通过公式(4)计算给定图像i^L和选择图像i^U之间相似的可能性，距离越小表示相似的概率越大；

当图像都来自数据集I_s，使用p_cyc(i_t|i^L)表示真实图像对的数据分布，因此使用循环一致性损失保持原始数据集中相似图像对的空间映射，循环一致性损失如公式(6)所示：

在判别模型D中预测图像i_t和选择图像i^U之间的相似的可能性，D的定义如公式(7)所示：

D(i^U|i^L)＝ReLU(f_φ(i^U,i^L))

D(i_t|i^L)＝ReLU(f_φ(i^U,i^L)) (7)

其中相关性得分f_φ(i_t,i^L)和f_φ(i^U,i^L)被定义为三元组损失，如公式(8)、(9)所示，i-∈(I_S-I_similar)，三元组损失的目标是使得图像对(i^L,i^U)的距离大于图相对(i^L,i_t)的距离，通过添加边缘超参数m加大它们之间的距离，使得空间映射更具有代表性，同样也保持标签数据之间的基于排名的关系；

f_φ(i^U,i^L)＝max(0,m-dis(i^L,i_t)+dis(i^L,i^U)) (8)

f_φ(i^t,i^L)＝max(0,m-dis(i^L,i_t)+dis(i^L,i^-)) (9)。

在半监督对抗生成网络被训练之后，通过判别模型执行跨数据域的检索；给定任何一个数据集中的图像查询，首先通过公式(2)编码为稀疏二进制编码；然后通过查询和数据库中每个数据之间的快速汉明距离计算来执行跨数据域的检索。

本发明的基于半监督对抗生成网络的迁移检索方法，包括以下过程：1)给定一个查询图像并从原始数据集中依据标签选出其相似的一张图像，再从无标签的目标数据集中随机选取一张图像；2)将选取的两张图像送入生成网络计算相似的可能性，并生成最有利于标记的数据对；3)添加循环一致网络确保相似图像之间在映射后尽可能相似；4)判别模型用于区分生成模型选出的数据对是否为真实相似的数据对；5)利用判别模型能更好地区分相似数据对的真实性的特性，在半监督对抗生成网络被训练之后，通过判别模型执行跨数据域的检索；

本发明的有益效果主要表现在：

1)构建一种新颖的对抗生成网络实现跨数据域的智能和快速的图像检索；

2)利用对抗生成网络能学习数据的真实分布这一特性，充分利用互联网时代的大规模图像数据提高检索模型的普适应性且不需要大量的人力标注数据；

3)利用深度卷积神经网络强大的特征表征能力实现特征自适应提取；

4)本设计兼顾了通用性和专用性，在通用性方面，检索精度和实用性等方面满足各类用户的需求；专用性方面用户根据自己的特定需求，做一个专用数据集并利用对抗网络进行微调后，实现一种面向特定应用的图像检索。

附图说明

图1为整体网络结构示意图。

图2为循环一致性示意图。

图3为超参数m效果图。

图4为基于半监督对抗生成网络的迁移检索方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参照图1～图4，一种基于半监督对抗生成网络的迁移检索方法，整体网络结构示意图如图1所示，首先，将有标签的原始数据集分为相似图像组，随后给定一张查询图像并得到查询图像的图像相似组；然后，从无标签的目标数据集中随机选取图像，同时送入生成模型，生成模型分为两条路径，分别提取原始数据集和目标数据集的图像特征，提取特征的基本网络选用VGG16网络，在VGG16网络的最后一层连接两个全连接层，第一个完全连接的层充当一个中间层，将特定于模态的特征映射到一个公共空间。第二个完全连接层用作哈希函数，它将中间特征进一步映射为哈希码，生成模型根据最有利于组成相似图像的方向生成相似图像对；接着，将生成的相似图像对和真实的相似图像对送入判别网络，判断是否是真实的相似图像对；这两个模型在训练过程中扮演着对抗的角色，最后将判别模型作为跨数据域的特征提取模型用于检索任务；

使用I_s表示有标签的原始数据集，I_t表示无标签的目标数据集，合并两个数据集为D＝{I_s,I_t},(I_s,I_t)∈R，合并数据集D可划分为D_train和D_q，其中D_train是检索数据集，D_q是查询数据集；检索数据库D_train也作为网络训练数据集，包含了有标签数据集其中n表示有标签的数据集大小，中的类别标签可表示为以及无标签数据集其中m表示无标签数据的大小，m＞＞n；查询数据集D_q＝{I_s,I_t}，其中基于半监督对抗生成网络的目标是训练两个映射方程和两个映射将原始数据集合目标数据映射到一个共同的汉明空间中，实现图像的迁移检索；通过学习映射函数给出任一数据集中的图像，可以通过快速汉明距离测量来检索另一数据集中的语义相似图像，从而实现迁移检索的目的；

监督学习使用的是标注数据，但是标注数据需要大量的人力，在大数据时代往往更容易获取无标签的数据，因此引入半监督学习获取更具有代表性的特征；

所述的生成模型可分为两条路径，分别接收原始数据集中的图像和目标数据集中的图像，两条路径结构相同，都包含特征提取层和哈希码映射层，采用深度卷积网络提取图像的特征并使用预训练模型为深度卷积网络提供参数，在训练阶段固定深度卷积网络的参数不变，因为半监督对抗生成网络的目标是学习两个哈希映射方程，在此使用VGG16网络作为图像的特征提取网络；哈希码映射层的结构在两条路径中也是相同的，并且它由两个完全连接的层组成。第一个完全连接的层充当一个中间层，将特定于模态的特征映射到一个公共空间。第二个完全连接层用作哈希函数，它将中间特征进一步映射为哈希码：

h(x)＝sigmoid(W^Tf(x)+b) (1)

其中f(x)表示第一层全连接层从VGG16最后一层提取的特征，W表示第二层全连接层的参数，b表示偏置；在两条路径中，最后一层全连接层的维度设置为与哈希码长度q相同；在全连接层中f(x)被映射到[0,1]^q之间，因此公式(1)中的h(x)∈[0,1]^q，为了得到图像的稀疏编码将h(x)送入阈值分段函数进行二值化，公式具体表现形式如下：

通过哈希码映射层，原始数据集和目标数据集的特征被映射到相同维度的汉明空间，以便通过快速的汉明距离计算可以测量不同数据集之间的相似度。生成模型的输入由标记数据和未标记数据组成，生成模型的目标是在给出对一个数据集的查询时，选择位于边缘附近的另一个数据集的信息性未标记数据。

对抗模型也可以分为两条路径，且对抗网络和生成网络是对称的，因此具体的网络结构与生成网络结构相同；判别模型的输入是生成模型生成的最具有标记意义的相关对，以及从标记图像中抽取的真实相关对，区分模型的目标是区分输入对是生成还是真实对；

对抗生成网络的原理本质上酷似博弈论中的二人零和博弈，即非此即彼的胜负游戏；当从原始数据集中随机选取一张图像，生成模型试图从目标数据集中选取一张图像作为相似图像对从而欺骗判别模型，而判别模型尽量区分是真实相似图像对还是生成模型生成的相似图像对；对抗损失函数被定义为公式(3)：

生成模型G即p(i^U)的具体表现形式如公式(4)所示：

其中dis(,)表示余弦距离公式，具体表现形式如公式(5)所示：

当图像都来自数据集I_s，使用p_cyc(i_t|i^L)表示真实图像对的数据分布，因此使用循环一致性损失保持原始数据集中相似图像对的空间映射，循环一致说明如图2所示，循环一致性损失表现形式如公式(6)所示，：

D(i^U|i^L)＝ReLU(f_φ(i^U,i^L))

D(i_t|i^L)＝ReLU(f_φ(i^U,i^L)) (7)

其中相关性得分f_φ(i_t,i^L)和f_φ(i^U,i^L)被定义为三元组损失，如公式(8)、(9)所示，i-∈(I_S-I_similar)，三元组损失的目标是使得图像对(i^L,i^U)的距离大于图相对(i^L,i_t)的距离，通过添加边缘超参数m加大它们之间的距离，使得空间映射更具有代表性，同样也保持标签数据之间的基于排名的关系，添加超参数m后的效果示意图如图3所示；

f_φ(i^U,i^L)＝max(0,m-dis(i^L,i_t)+dis(i^L,i^U)) (8)

f_φ(i^t,i^L)＝max(0,m-dis(i^L,i_t)+dis(i^L,i^-)) (9)

生成模型试的目的是拟合原始数据集和目标数据集之间的图像分布，对相似图像的精细区分不敏感，因此不适合执行交叉模式检索；然而，由于判别模型能更好地区分相似数据对的真实性，因此，在提出的半监督对抗生成网络被训练之后，可以通过判别模型执行跨数据域的检索；更具体地说，给定任何一个数据集中的图像查询，它可以首先通过公式(2)编码为稀疏二进制编码；然后通过查询和数据库中每个数据之间的快速汉明距离计算来执行跨数据域的检索。

以上所述仅为本发明的较佳实施举例，并不用于限制本发明，凡在本发明精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于半监督对抗生成网络的迁移检索方法，其特征在于，包括以下步骤：

1)构建对抗生成网络进行跨数据域的哈希检索，如不同数据库下、摄像头下或不同场景下数据，其目标是将原始数据集和目标数据集映射到一个共同的汉明空间，从而实现跨数据域的智能和快速的图像检索；

3)利用循环一致网络保持相似图像之间的相似性；

6)利用步骤5)中得到的判别模型提取检索需要的特征。

2.如权利要求1所述的基于半监督对抗生成网络的迁移检索方法，其特征在于：所述的对抗网络模型包含生成模型和判别模型，生成模型分别接收来自原始数据中的有标签图像和目标数据中的无标签图像，生成模型同时也接收来自原始数据集中的真实相似图像对，从而生成最有利于标记的数据对；判别模型将生成模型生成的数据对和原始真实相似图像对作为输入，并区分是生成图像对还是真实图像对，这两个模型在训练过程中扮演着对抗的角色，最后将判别模型作为跨数据域的特征提取模型用于检索任务；

3.如权利要求1或2所述的基于半监督对抗生成网络的迁移检索方法，其特征在于：所述生成模型分为两条路径，分别接收原始数据集中的图像和目标数据集中的图像，两条路径结构相同，都包含特征提取层和哈希码映射层，采用深度卷积网络提取图像的特征并使用预训练模型为深度卷积网络提供参数，在训练阶段固定深度卷积网络的参数不变，因为半监督对抗生成网络的目标是学习两个哈希映射方程，在此使用VGG16网络作为图像的特征提取网络；哈希码映射层的结构在两条路径中也是相同的，并且它由两个完全连接的层组成。第一个完全连接的层充当一个中间层，将特定于模态的特征映射到一个公共空间。第二个完全连接层用作哈希函数，它将中间特征进一步映射为哈希码：

h(x)＝sigmoid(W^Tf(x)+b) (1)

其中f(x)表示第一层全连接层从VGG16最后一层提取的特征，W表示第二层全连接层的参数，b表示偏置；在两条路径中，最后一层全连接层的维度设置为与哈希码长度q相同；在全连接层中f(x)被映射到[0,1]^q之间，因此公式(1)中的h(x)∈[0,1]^q，为了得到图像的稀疏编码将h(x)送入阈值分段函数进行二值化，形式如下：

通过哈希码映射层，原始数据集和目标数据集的特征被映射到相同维度的汉明空间，以便通过快速的汉明距离计算可以测量不同数据集之间的相似度。生成模型的输入由标记数据和未标记数据组成，生成模型的目标是在给出对一个数据集的查询时，选择位于边缘附近的另一个数据集的信息性未标记数据；

对抗模型也可以分为两条路径，且对抗网络和生成网络是对称的，因此具体的网络结构与生成网络结构相同；判别模型的输入是生成模型生成的最具有标记意义的相关对，以及从标记图像中抽取的真实相关对，区分模型的目标是区分输入对是生成还是真实对。

4.如权利要求1所述的基于半监督对抗生成网络的迁移检索方法，其特征在于：当从原始数据集中随机选取一张图像，生成模型试图从目标数据集中选取一张图像作为相似图像对从而欺骗判别模型，而判别模型尽量区分是真实相似图像对还是生成模型生成的相似图像对；对抗损失函数被定义为公式(3)：

生成模型G即p(i^U)的如公式(4)所示：

其中dis(,)表示余弦距离公式，具体表现形式如公式(5)所示：

D(i^U|i^L)＝ReLU(f_φ(i^U,i^L))

D(i_t|i^L)＝ReLU(f_φ(i^U,i^L)) (7)

f_φ(i^U,i^L)＝max(0,m-dis(i^L,i_t)+dis(i^L,i^U)) (8)

f_φ(i^t,i^L)＝max(0,m-dis(i^L,i_t)+dis(i^L,i^-)) (9)。

5.如权利要求1或4所述的基于半监督对抗生成网络的迁移检索方法，其特征在于：在半监督对抗生成网络被训练之后，通过判别模型执行跨数据域的检索；给定任何一个数据集中的图像查询，首先通过公式(2)编码为稀疏二进制编码；然后通过查询和数据库中每个数据之间的快速汉明距离计算来执行跨数据域的检索。