CN108959522A - 基于半监督对抗生成网络的迁移检索方法 - Google Patents
基于半监督对抗生成网络的迁移检索方法 Download PDFInfo
- Publication number
- CN108959522A CN108959522A CN201810689362.4A CN201810689362A CN108959522A CN 108959522 A CN108959522 A CN 108959522A CN 201810689362 A CN201810689362 A CN 201810689362A CN 108959522 A CN108959522 A CN 108959522A
- Authority
- CN
- China
- Prior art keywords
- image
- data
- model
- network
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
一种基于半监督对抗生成网络的迁移检索方法,通过设计对抗生成网络进行跨数据域的哈希检索,其目标是将原始数据集和目标数据集映射到一个共同的汉明空间,使得在一个特定场景中图像检索通过半监督对抗生成网络的学习可迁移到另一场景的检索图像中,从而解决大数据时代下无法充分利用未标记的数据和检索模型只适合单一场景的问题。本发明有效提高图像检索的自动化和智能化水平。
Description
技术领域
本发明涉及计算机视觉、模式识别、对抗生成网络、迁移检索、循环一致性、深度自编码卷积神经网络和深度学习技术在图像检索领域的应用,尤其涉及一种基于半监督对抗生成网络的迁移检索方法。
背景技术
在web2.0时代,每日产生海量的图像、文本、音频数据,如何在这些浩瀚且无标注的数据中快速、准确地查询用户需要或感兴趣的图像,成为多媒体信息检索领域研究的热点。随着人工智能的不断发展,卷积神经网络的层数不断加深,无论图像数据、文本数据、音频数据都可通过训练,使其能将大量的有标签数据中学习到精准的从输入到输出的映射。
迁移学习的目的是将从一个场景中学到的知识用来解决另一个场景中的任务。在现实生活中存在一些特定的应用,比如行人重识别问题,重识别任务旨在搜索查询的相关图像,在某些情况下,原始数据域充分注释,具有ID标签,但是因为昂贵的标记过程和当在一个数据集上训练的模型直接在另一个数据集上使用时,由于数据集的原因,重新识别的准确性急剧下降。因此,当前的完全监督的单域re-ID方法在现实世界的场景中可能会受到限制,而在这些场景中,特定域的标签是不可用的。比如车辆的跨数据域检索问题,当在某个场景下训练好的模型使用到另一场景时,车辆检索变得不可信。
综上所述,目前的检索任务主要存在以下局限:1)大数据时代的海量数据,严重依赖人工标记数据难以获取大规模的有标签训练数据;2)如何训练一个模型使其能应用于不同环境;3)如何构建一种网络实现跨数据域的智能和快速的车辆检索;4)如何通过训练网络模型使得相似图像之间的距离减小,不相似图像之间的距离增大;
发明内容
为了克服现有的图像检索技术中需要依靠大量的人工标注数据、对已存在的检索模型只适合单一场景、没有有效利用海量未标注数据的不足,本发明提出了一种基于半监督对抗生成网络的迁移检索方法,通过设计一种新颖的对抗生成网络进行跨数据预的哈希检索,如不同数据库下、摄像头下或不同场景下数据,其目标是将原始数据集和目标数据集映射到一个共同的汉明空间;利用循环一致网络保持相似图像之间的相似性,并加入边缘超参数,使得相似图像之间的距离减小,不相似图像之间的距离增大;从而实现跨数据域的智能和快速的图像检索满足大数据时代背景下的图像检索需求。
为了解决上述技术问题,本发明提供如下的技术方案:
一种基于半监督对抗生成网络的迁移检索方法,包括以下步骤:
1)构建对抗生成网络进行跨数据模式下的哈希检索,如不同数据库下、摄像头下或不同场景下数据,其目标是将原始数据集和目标数据集映射到一个共同的汉明空间,从而实现跨空间域的智能和快速的图像检索;
2)利用步骤1)中适用于迁移检索的对抗生成网络,生成模型从原始数据集和目标数据集随机选取数据对并生成最有利于标记的数据对,判别模型用于区分生成模型选出的数据对是否为真实相似的数据对;
3)利用循环一致网络保持相似图像之间的相似性;
4)根据步骤2)中的判别模型加入边缘超参数,使得相似图像之间的距离减小,不相似图像之间的距离增大;
5)在训练判别模型的阶段固定生成模型的参数,反之,在训练生成模型的阶段固定判别模型的参数;
6)利用步骤5)中得到的判别模型提取检索需要的特征。
进一步,所述的对抗网络模型包含生成模型和判别模型,生成模型分别接收来自原始数据中的有标签图像和目标数据中的无标签图像,生成模型同时也接收来自原始数据集中的真实相似图像对,从而生成最有利于标记的数据对;判别模型将生成模型生成的数据对和原始真实相似图像对作为输入,并区分是生成图像对还是真实图像对,这两个模型在训练过程中扮演着对抗的角色,最后将判别模型作为跨数据域的特征提取模型用于检索任务;
在基于半监督对抗生成网络的迁移检索方法中,使用Is表示有标签的原始数据集,It表示无标签的目标数据集,合并两个数据集为D={Is,It},(Is,It)∈R,合并数据集D可划分为Dtrain和Dq,其中Dtrain是检索数据集,Dq是查询数据集;检索数据库Dtrain也作为网络训练数据集,包含了有标签数据集其中n表示有标签的数据集大小,中的类别标签可表示为以及无标签数据集其中m表示无标签数据的大小,m>>n;查询数据集Dq={Is,It},其中基于半监督对抗生成网络的目标是训练两个映射方程和两个映射将原始数据集合目标数据映射到一个共同的汉明空间中,实现图像的迁移检索;通过学习映射函数给出任一数据集中的图像,通过快速汉明距离测量来检索另一数据集中的语义相似图像。
再进一步,生成模型分为两条路径,分别接收原始数据集中的图像和目标数据集中的图像,两条路径结构相同,都包含特征提取层和哈希码映射层,采用深度卷积网络提取图像的特征并使用预训练模型为深度卷积网络提供参数,在训练阶段固定深度卷积网络的参数不变,因为半监督对抗生成网络的目标是学习两个哈希映射方程,在此使用VGG16网络作为图像的特征提取网络;哈希码映射层的结构在两条路径中也是相同的,并且它由两个完全连接的层组成;第一个完全连接的层充当一个中间层,将特定于模态的特征映射到一个公共空间;第二个完全连接层用作哈希函数,它将中间特征进一步映射为哈希码:
h(x)=sigmoid(WTf(x)+b) (1)
其中f(x)表示第一层全连接层从VGG16最后一层提取的特征,W表示第二层全连接层的参数,b表示偏置;在两条路径中,最后一层全连接层的维度设置为与哈希码长度q相同;在全连接层中f(x)被映射到[0,1]q之间,因此公式(1)中的h(x)∈[0,1]q,为了得到图像的稀疏编码将h(x)送入阈值分段函数进行二值化,公式如下:
通过哈希码映射层,原始数据集和目标数据集的特征被映射到相同维度的汉明空间,以便通过快速的汉明距离计算测量不同数据集之间的相似度;生成模型的输入由标记数据和未标记数据组成,生成模型的目标是在给出对一个数据集的查询时,选择位于边缘附近的另一个数据集的信息性未标记数据;
对抗模型分为两条路径,且对抗网络和生成网络是对称的,因此具体的网络结构与生成网络结构相同;判别模型的输入是生成模型生成的最具有标记意义的相关对,以及从标记图像中抽取的真实相关对,区分模型的目标是区分输入对是生成还是真实对;
更进一步,对抗生成网络的原理是非此即彼的胜负游戏,当从原始数据集中随机选取一张图像,生成模型试图从目标数据集中选取一张图像作为相似图像对从而欺骗判别模型,而判别模型尽量区分是真实相似图像对还是生成模型生成的相似图像对;对抗损失函数被定义为公式(3):
其中,假设在原始数据集中与图像iL相似的图像有Isimilar={i1,i2,...,it},在给定查询图像iL的情况下,p(it|iL)和p(iU|iL)表示当从Isimilar中选取有标签图像it,生成模型从目标数据集中选取无标签数据iU,生成模型的目标是近似不同数据集之间的图像真实分布;在判别模型中fφ(it,iL)和fφ(iU,iL),试图预测给定图像it和候选图像iU对的相关性分数;区分模型的输入包括由语义标签抽样的真实对,以及来自生成模型的生成对;区分模型的目标是尽可能准确地区分由语义标签抽样的真实对和生成模型生成的相似对;
生成模型G即p(iU)的形式如公式(4)所示:
其中dis(,)表示余弦距离公式,如公式(5)所示:
h(ξ)表示从生成网络两条路径的哈希映射函数中提取到的特征,通过公式(4)计算给定图像iL和选择图像iU之间相似的可能性,距离越小表示相似的概率越大;
当图像都来自数据集Is,使用pcyc(it|iL)表示真实图像对的数据分布,因此使用循环一致性损失保持原始数据集中相似图像对的空间映射,循环一致性损失如公式(6)所示:
在判别模型D中预测图像it和选择图像iU之间的相似的可能性,D的定义如公式(7)所示:
D(iU|iL)=ReLU(fφ(iU,iL))
D(it|iL)=ReLU(fφ(iU,iL)) (7)
其中相关性得分fφ(it,iL)和fφ(iU,iL)被定义为三元组损失,如公式(8)、(9)所示,i-∈(IS-Isimilar),三元组损失的目标是使得图像对(iL,iU)的距离大于图相对(iL,it)的距离,通过添加边缘超参数m加大它们之间的距离,使得空间映射更具有代表性,同样也保持标签数据之间的基于排名的关系;
fφ(iU,iL)=max(0,m-dis(iL,it)+dis(iL,iU)) (8)
fφ(it,iL)=max(0,m-dis(iL,it)+dis(iL,i-)) (9)。
在半监督对抗生成网络被训练之后,通过判别模型执行跨数据域的检索;给定任何一个数据集中的图像查询,首先通过公式(2)编码为稀疏二进制编码;然后通过查询和数据库中每个数据之间的快速汉明距离计算来执行跨数据域的检索。
本发明的基于半监督对抗生成网络的迁移检索方法,包括以下过程:1)给定一个查询图像并从原始数据集中依据标签选出其相似的一张图像,再从无标签的目标数据集中随机选取一张图像;2)将选取的两张图像送入生成网络计算相似的可能性,并生成最有利于标记的数据对;3)添加循环一致网络确保相似图像之间在映射后尽可能相似;4)判别模型用于区分生成模型选出的数据对是否为真实相似的数据对;5)利用判别模型能更好地区分相似数据对的真实性的特性,在半监督对抗生成网络被训练之后,通过判别模型执行跨数据域的检索;
本发明的有益效果主要表现在:
1)构建一种新颖的对抗生成网络实现跨数据域的智能和快速的图像检索;
2)利用对抗生成网络能学习数据的真实分布这一特性,充分利用互联网时代的大规模图像数据提高检索模型的普适应性且不需要大量的人力标注数据;
3)利用深度卷积神经网络强大的特征表征能力实现特征自适应提取;
4)本设计兼顾了通用性和专用性,在通用性方面,检索精度和实用性等方面满足各类用户的需求;专用性方面用户根据自己的特定需求,做一个专用数据集并利用对抗网络进行微调后,实现一种面向特定应用的图像检索。
附图说明
图1为整体网络结构示意图。
图2为循环一致性示意图。
图3为超参数m效果图。
图4为基于半监督对抗生成网络的迁移检索方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参照图1~图4,一种基于半监督对抗生成网络的迁移检索方法,整体网络结构示意图如图1所示,首先,将有标签的原始数据集分为相似图像组,随后给定一张查询图像并得到查询图像的图像相似组;然后,从无标签的目标数据集中随机选取图像,同时送入生成模型,生成模型分为两条路径,分别提取原始数据集和目标数据集的图像特征,提取特征的基本网络选用VGG16网络,在VGG16网络的最后一层连接两个全连接层,第一个完全连接的层充当一个中间层,将特定于模态的特征映射到一个公共空间。第二个完全连接层用作哈希函数,它将中间特征进一步映射为哈希码,生成模型根据最有利于组成相似图像的方向生成相似图像对;接着,将生成的相似图像对和真实的相似图像对送入判别网络,判断是否是真实的相似图像对;这两个模型在训练过程中扮演着对抗的角色,最后将判别模型作为跨数据域的特征提取模型用于检索任务;
使用Is表示有标签的原始数据集,It表示无标签的目标数据集,合并两个数据集为D={Is,It},(Is,It)∈R,合并数据集D可划分为Dtrain和Dq,其中Dtrain是检索数据集,Dq是查询数据集;检索数据库Dtrain也作为网络训练数据集,包含了有标签数据集其中n表示有标签的数据集大小,中的类别标签可表示为以及无标签数据集其中m表示无标签数据的大小,m>>n;查询数据集Dq={Is,It},其中 基于半监督对抗生成网络的目标是训练两个映射方程和两个映射将原始数据集合目标数据映射到一个共同的汉明空间中,实现图像的迁移检索;通过学习映射函数给出任一数据集中的图像,可以通过快速汉明距离测量来检索另一数据集中的语义相似图像,从而实现迁移检索的目的;
监督学习使用的是标注数据,但是标注数据需要大量的人力,在大数据时代往往更容易获取无标签的数据,因此引入半监督学习获取更具有代表性的特征;
所述的生成模型可分为两条路径,分别接收原始数据集中的图像和目标数据集中的图像,两条路径结构相同,都包含特征提取层和哈希码映射层,采用深度卷积网络提取图像的特征并使用预训练模型为深度卷积网络提供参数,在训练阶段固定深度卷积网络的参数不变,因为半监督对抗生成网络的目标是学习两个哈希映射方程,在此使用VGG16网络作为图像的特征提取网络;哈希码映射层的结构在两条路径中也是相同的,并且它由两个完全连接的层组成。第一个完全连接的层充当一个中间层,将特定于模态的特征映射到一个公共空间。第二个完全连接层用作哈希函数,它将中间特征进一步映射为哈希码:
h(x)=sigmoid(WTf(x)+b) (1)
其中f(x)表示第一层全连接层从VGG16最后一层提取的特征,W表示第二层全连接层的参数,b表示偏置;在两条路径中,最后一层全连接层的维度设置为与哈希码长度q相同;在全连接层中f(x)被映射到[0,1]q之间,因此公式(1)中的h(x)∈[0,1]q,为了得到图像的稀疏编码将h(x)送入阈值分段函数进行二值化,公式具体表现形式如下:
通过哈希码映射层,原始数据集和目标数据集的特征被映射到相同维度的汉明空间,以便通过快速的汉明距离计算可以测量不同数据集之间的相似度。生成模型的输入由标记数据和未标记数据组成,生成模型的目标是在给出对一个数据集的查询时,选择位于边缘附近的另一个数据集的信息性未标记数据。
对抗模型也可以分为两条路径,且对抗网络和生成网络是对称的,因此具体的网络结构与生成网络结构相同;判别模型的输入是生成模型生成的最具有标记意义的相关对,以及从标记图像中抽取的真实相关对,区分模型的目标是区分输入对是生成还是真实对;
对抗生成网络的原理本质上酷似博弈论中的二人零和博弈,即非此即彼的胜负游戏;当从原始数据集中随机选取一张图像,生成模型试图从目标数据集中选取一张图像作为相似图像对从而欺骗判别模型,而判别模型尽量区分是真实相似图像对还是生成模型生成的相似图像对;对抗损失函数被定义为公式(3):
其中,假设在原始数据集中与图像iL相似的图像有Isimilar={i1,i2,...,it},在给定查询图像iL的情况下,p(it|iL)和p(iU|iL)表示当从Isimilar中选取有标签图像it,生成模型从目标数据集中选取无标签数据iU,生成模型的目标是近似不同数据集之间的图像真实分布;在判别模型中fφ(it,iL)和fφ(iU,iL),试图预测给定图像it和候选图像iU对的相关性分数;区分模型的输入包括由语义标签抽样的真实对,以及来自生成模型的生成对;区分模型的目标是尽可能准确地区分由语义标签抽样的真实对和生成模型生成的相似对;
生成模型G即p(iU)的具体表现形式如公式(4)所示:
其中dis(,)表示余弦距离公式,具体表现形式如公式(5)所示:
h(ξ)表示从生成网络两条路径的哈希映射函数中提取到的特征,通过公式(4)计算给定图像iL和选择图像iU之间相似的可能性,距离越小表示相似的概率越大;
当图像都来自数据集Is,使用pcyc(it|iL)表示真实图像对的数据分布,因此使用循环一致性损失保持原始数据集中相似图像对的空间映射,循环一致说明如图2所示,循环一致性损失表现形式如公式(6)所示,:
在判别模型D中预测图像it和选择图像iU之间的相似的可能性,D的定义如公式(7)所示:
D(iU|iL)=ReLU(fφ(iU,iL))
D(it|iL)=ReLU(fφ(iU,iL)) (7)
其中相关性得分fφ(it,iL)和fφ(iU,iL)被定义为三元组损失,如公式(8)、(9)所示,i-∈(IS-Isimilar),三元组损失的目标是使得图像对(iL,iU)的距离大于图相对(iL,it)的距离,通过添加边缘超参数m加大它们之间的距离,使得空间映射更具有代表性,同样也保持标签数据之间的基于排名的关系,添加超参数m后的效果示意图如图3所示;
fφ(iU,iL)=max(0,m-dis(iL,it)+dis(iL,iU)) (8)
fφ(it,iL)=max(0,m-dis(iL,it)+dis(iL,i-)) (9)
生成模型试的目的是拟合原始数据集和目标数据集之间的图像分布,对相似图像的精细区分不敏感,因此不适合执行交叉模式检索;然而,由于判别模型能更好地区分相似数据对的真实性,因此,在提出的半监督对抗生成网络被训练之后,可以通过判别模型执行跨数据域的检索;更具体地说,给定任何一个数据集中的图像查询,它可以首先通过公式(2)编码为稀疏二进制编码;然后通过查询和数据库中每个数据之间的快速汉明距离计算来执行跨数据域的检索。
以上所述仅为本发明的较佳实施举例,并不用于限制本发明,凡在本发明精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于半监督对抗生成网络的迁移检索方法,其特征在于,包括以下步骤:
1)构建对抗生成网络进行跨数据域的哈希检索,如不同数据库下、摄像头下或不同场景下数据,其目标是将原始数据集和目标数据集映射到一个共同的汉明空间,从而实现跨数据域的智能和快速的图像检索;
2)利用步骤1)中适用于迁移检索的对抗生成网络,生成模型从原始数据集和目标数据集随机选取数据对并生成最有利于标记的数据对,判别模型用于区分生成模型选出的数据对是否为真实相似的数据对;
3)利用循环一致网络保持相似图像之间的相似性;
4)根据步骤2)中的判别模型加入边缘超参数,使得相似图像之间的距离减小,不相似图像之间的距离增大;
5)在训练判别模型的阶段固定生成模型的参数,反之,在训练生成模型的阶段固定判别模型的参数;
6)利用步骤5)中得到的判别模型提取检索需要的特征。
2.如权利要求1所述的基于半监督对抗生成网络的迁移检索方法,其特征在于:所述的对抗网络模型包含生成模型和判别模型,生成模型分别接收来自原始数据中的有标签图像和目标数据中的无标签图像,生成模型同时也接收来自原始数据集中的真实相似图像对,从而生成最有利于标记的数据对;判别模型将生成模型生成的数据对和原始真实相似图像对作为输入,并区分是生成图像对还是真实图像对,这两个模型在训练过程中扮演着对抗的角色,最后将判别模型作为跨数据域的特征提取模型用于检索任务;
在基于半监督对抗生成网络的迁移检索方法中,使用Is表示有标签的原始数据集,It表示无标签的目标数据集,合并两个数据集为D={Is,It},(Is,It)∈R,合并数据集D可划分为Dtrain和Dq,其中Dtrain是检索数据集,Dq是查询数据集;检索数据库Dtrain也作为网络训练数据集,包含了有标签数据集其中n表示有标签的数据集大小,中的类别标签可表示为以及无标签数据集其中m表示无标签数据的大小,m>>n;查询数据集Dq={Is,It},其中基于半监督对抗生成网络的目标是训练两个映射方程和两个映射将原始数据集合目标数据映射到一个共同的汉明空间中,实现图像的迁移检索;通过学习映射函数给出任一数据集中的图像,通过快速汉明距离测量来检索另一数据集中的语义相似图像。
3.如权利要求1或2所述的基于半监督对抗生成网络的迁移检索方法,其特征在于:所述生成模型分为两条路径,分别接收原始数据集中的图像和目标数据集中的图像,两条路径结构相同,都包含特征提取层和哈希码映射层,采用深度卷积网络提取图像的特征并使用预训练模型为深度卷积网络提供参数,在训练阶段固定深度卷积网络的参数不变,因为半监督对抗生成网络的目标是学习两个哈希映射方程,在此使用VGG16网络作为图像的特征提取网络;哈希码映射层的结构在两条路径中也是相同的,并且它由两个完全连接的层组成。第一个完全连接的层充当一个中间层,将特定于模态的特征映射到一个公共空间。第二个完全连接层用作哈希函数,它将中间特征进一步映射为哈希码:
h(x)=sigmoid(WTf(x)+b) (1)
其中f(x)表示第一层全连接层从VGG16最后一层提取的特征,W表示第二层全连接层的参数,b表示偏置;在两条路径中,最后一层全连接层的维度设置为与哈希码长度q相同;在全连接层中f(x)被映射到[0,1]q之间,因此公式(1)中的h(x)∈[0,1]q,为了得到图像的稀疏编码将h(x)送入阈值分段函数进行二值化,形式如下:
通过哈希码映射层,原始数据集和目标数据集的特征被映射到相同维度的汉明空间,以便通过快速的汉明距离计算可以测量不同数据集之间的相似度。生成模型的输入由标记数据和未标记数据组成,生成模型的目标是在给出对一个数据集的查询时,选择位于边缘附近的另一个数据集的信息性未标记数据;
对抗模型也可以分为两条路径,且对抗网络和生成网络是对称的,因此具体的网络结构与生成网络结构相同;判别模型的输入是生成模型生成的最具有标记意义的相关对,以及从标记图像中抽取的真实相关对,区分模型的目标是区分输入对是生成还是真实对。
4.如权利要求1所述的基于半监督对抗生成网络的迁移检索方法,其特征在于:当从原始数据集中随机选取一张图像,生成模型试图从目标数据集中选取一张图像作为相似图像对从而欺骗判别模型,而判别模型尽量区分是真实相似图像对还是生成模型生成的相似图像对;对抗损失函数被定义为公式(3):
其中,假设在原始数据集中与图像iL相似的图像有Isimilar={i1,i2,...,it},在给定查询图像iL的情况下,p(it|iL)和p(iU|iL)表示当从Isimilar中选取有标签图像it,生成模型从目标数据集中选取无标签数据iU,生成模型的目标是近似不同数据集之间的图像真实分布;在判别模型中fφ(it,iL)和fφ(iU,iL),试图预测给定图像it和候选图像iU对的相关性分数;区分模型的输入包括由语义标签抽样的真实对,以及来自生成模型的生成对;区分模型的目标是尽可能准确地区分由语义标签抽样的真实对和生成模型生成的相似对;
生成模型G即p(iU)的如公式(4)所示:
其中dis(,)表示余弦距离公式,具体表现形式如公式(5)所示:
h(ξ)表示从生成网络两条路径的哈希映射函数中提取到的特征,通过公式(4)计算给定图像iL和选择图像iU之间相似的可能性,距离越小表示相似的概率越大;
当图像都来自数据集Is,使用pcyc(it|iL)表示真实图像对的数据分布,因此使用循环一致性损失保持原始数据集中相似图像对的空间映射,循环一致性损失如公式(6)所示:
在判别模型D中预测图像it和选择图像iU之间的相似的可能性,D的定义如公式(7)所示:
D(iU|iL)=ReLU(fφ(iU,iL))
D(it|iL)=ReLU(fφ(iU,iL)) (7)
其中相关性得分fφ(it,iL)和fφ(iU,iL)被定义为三元组损失,如公式(8)、(9)所示,i-∈(IS-Isimilar),三元组损失的目标是使得图像对(iL,iU)的距离大于图相对(iL,it)的距离,通过添加边缘超参数m加大它们之间的距离,使得空间映射更具有代表性,同样也保持标签数据之间的基于排名的关系;
fφ(iU,iL)=max(0,m-dis(iL,it)+dis(iL,iU)) (8)
fφ(it,iL)=max(0,m-dis(iL,it)+dis(iL,i-)) (9)。
5.如权利要求1或4所述的基于半监督对抗生成网络的迁移检索方法,其特征在于:在半监督对抗生成网络被训练之后,通过判别模型执行跨数据域的检索;给定任何一个数据集中的图像查询,首先通过公式(2)编码为稀疏二进制编码;然后通过查询和数据库中每个数据之间的快速汉明距离计算来执行跨数据域的检索。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810383643 | 2018-04-26 | ||
CN2018103836437 | 2018-04-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959522A true CN108959522A (zh) | 2018-12-07 |
CN108959522B CN108959522B (zh) | 2022-06-17 |
Family
ID=64487682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810689362.4A Active CN108959522B (zh) | 2018-04-26 | 2018-06-28 | 基于半监督对抗生成网络的迁移检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959522B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110163117A (zh) * | 2019-04-28 | 2019-08-23 | 浙江大学 | 一种基于自激励判别性特征学习的行人重识别方法 |
CN110705406A (zh) * | 2019-09-20 | 2020-01-17 | 五邑大学 | 基于对抗迁移学习的人脸美丽预测方法及装置 |
CN111091068A (zh) * | 2019-11-26 | 2020-05-01 | 重庆紫光华山智安科技有限公司 | 一种密度估计模型训练方法、装置、存储介质及电子设备 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN112445928A (zh) * | 2019-08-29 | 2021-03-05 | 华为技术有限公司 | 一种图像检索方法及装置 |
CN115471717A (zh) * | 2022-09-20 | 2022-12-13 | 北京百度网讯科技有限公司 | 模型的半监督训练、分类方法装置、设备、介质及产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512289A (zh) * | 2015-12-07 | 2016-04-20 | 郑州金惠计算机系统工程有限公司 | 基于深度学习和哈希的图像检索方法 |
CN106407352A (zh) * | 2016-09-06 | 2017-02-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于深度学习的交通图像检索方法 |
CN106503106A (zh) * | 2016-10-17 | 2017-03-15 | 北京工业大学 | 一种基于深度学习的图像哈希索引构建方法 |
CN106980641A (zh) * | 2017-02-09 | 2017-07-25 | 上海交通大学 | 基于卷积神经网络的无监督哈希快速图片检索系统及方法 |
CN107423376A (zh) * | 2017-07-10 | 2017-12-01 | 上海交通大学 | 一种有监督深度哈希快速图片检索方法及系统 |
-
2018
- 2018-06-28 CN CN201810689362.4A patent/CN108959522B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512289A (zh) * | 2015-12-07 | 2016-04-20 | 郑州金惠计算机系统工程有限公司 | 基于深度学习和哈希的图像检索方法 |
CN106407352A (zh) * | 2016-09-06 | 2017-02-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于深度学习的交通图像检索方法 |
CN106503106A (zh) * | 2016-10-17 | 2017-03-15 | 北京工业大学 | 一种基于深度学习的图像哈希索引构建方法 |
CN106980641A (zh) * | 2017-02-09 | 2017-07-25 | 上海交通大学 | 基于卷积神经网络的无监督哈希快速图片检索系统及方法 |
CN107423376A (zh) * | 2017-07-10 | 2017-12-01 | 上海交通大学 | 一种有监督深度哈希快速图片检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈朋 等: "基于多任务Faster R-CNN车辆假牌套牌的检测方法", 《仪器仪表学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163117A (zh) * | 2019-04-28 | 2019-08-23 | 浙江大学 | 一种基于自激励判别性特征学习的行人重识别方法 |
CN110059217B (zh) * | 2019-04-29 | 2022-11-04 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN112445928A (zh) * | 2019-08-29 | 2021-03-05 | 华为技术有限公司 | 一种图像检索方法及装置 |
CN112445928B (zh) * | 2019-08-29 | 2024-09-20 | 华为技术有限公司 | 一种图像检索方法及装置 |
WO2021052159A1 (zh) * | 2019-09-20 | 2021-03-25 | 五邑大学 | 基于对抗迁移学习的人脸美丽预测方法及装置 |
CN110705406B (zh) * | 2019-09-20 | 2022-11-15 | 五邑大学 | 基于对抗迁移学习的人脸美丽预测方法及装置 |
CN110705406A (zh) * | 2019-09-20 | 2020-01-17 | 五邑大学 | 基于对抗迁移学习的人脸美丽预测方法及装置 |
CN111091068B (zh) * | 2019-11-26 | 2021-07-20 | 重庆紫光华山智安科技有限公司 | 一种密度估计模型训练方法、装置、存储介质及电子设备 |
CN111091068A (zh) * | 2019-11-26 | 2020-05-01 | 重庆紫光华山智安科技有限公司 | 一种密度估计模型训练方法、装置、存储介质及电子设备 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN111581405B (zh) * | 2020-04-26 | 2021-10-26 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN115471717A (zh) * | 2022-09-20 | 2022-12-13 | 北京百度网讯科技有限公司 | 模型的半监督训练、分类方法装置、设备、介质及产品 |
CN115471717B (zh) * | 2022-09-20 | 2023-06-20 | 北京百度网讯科技有限公司 | 模型的半监督训练、分类方法装置、设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN108959522B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959522A (zh) | 基于半监督对抗生成网络的迁移检索方法 | |
Cheng et al. | A deep semantic alignment network for the cross-modal image-text retrieval in remote sensing | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
Tursun et al. | An efficient framework for zero-shot sketch-based image retrieval | |
CN106095829B (zh) | 基于深度学习与一致性表达空间学习的跨媒体检索方法 | |
Jiang et al. | Learning from contextual information of geo-tagged web photos to rank personalized tourism attractions | |
Ji et al. | Mining city landmarks from blogs by graph modeling | |
CN113553429B (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
Gomez et al. | Learning to learn from web data through deep semantic embeddings | |
Fan et al. | Quantitative characterization of semantic gaps for learning complexity estimation and inference model selection | |
Liao et al. | Tag features for geo-aware image classification | |
Cheng et al. | A global and local context integration DCNN for adult image classification | |
CN113590810A (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
Shah et al. | Concept-level multimodal ranking of flickr photo tags via recall based weighting | |
Jiang et al. | ContextRank: personalized tourism recommendation by exploiting context information of geotagged web photos | |
Wu et al. | Multimodal metadata fusion using causal strength | |
Solanki et al. | Vedl: a novel video event searching technique using deep learning | |
CN115129908A (zh) | 一种模型优化方法、装置、设备、存储介质及程序产品 | |
Jyhne et al. | Mapai: precision in building segmentation | |
Yin et al. | Gps2vec: Pre-trained semantic embeddings for worldwide gps coordinates | |
Li et al. | A probabilistic topic-based ranking framework for location-sensitive domain information retrieval | |
Huang et al. | Placepedia: Comprehensive place understanding with multi-faceted annotations | |
Haikal et al. | Place embedding across cities in location-based social networks | |
Cao et al. | Bluefinder: estimate where a beach photo was taken | |
Bhattacharjee et al. | Distributed learning of deep feature embeddings for visual recognition tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |