CN112883216A - 基于扰动一致性自集成的半监督图像检索方法及装置 - Google Patents
基于扰动一致性自集成的半监督图像检索方法及装置 Download PDFInfo
- Publication number
- CN112883216A CN112883216A CN202110226266.8A CN202110226266A CN112883216A CN 112883216 A CN112883216 A CN 112883216A CN 202110226266 A CN202110226266 A CN 202110226266A CN 112883216 A CN112883216 A CN 112883216A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- hash
- semi
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于扰动一致性自集成的半监督图像检索方法及装置,包括将图像输入训练后的半监督图像特征提取模型,得到该图像的特征,其中所述半监督图像特征提取模型包括:一卷积神经网络、一哈希层和一扰动一致性自集成模块;将图像的特征转换为图像离散的二值哈希码;依据二值哈希码进行检索,得到图像检索结果。本发明通过集成同一个样本在不同数据增强条件下的特征,能够发现每个类别的判别特征;通过设计的扰动一致性损失函数最大化无标记数据的哈希层输出与对应的集成特征的相似性,充分的利用了无标记数据提升网络的泛化能力;能够取得更好的检索效果。
Description
技术领域
本发明属于软件技术领域,尤其涉及一种基于扰动一致性自集成的半监督图像检索方法及装置。
背景技术
随着互联网上图像数据的爆炸式增长,海量的图像数据和高维的图像特征使得图像检索面临巨大挑战。深度哈希方法由于存储成本低和检索速度快的特点,成为近年来的研究热点。
一般地,深度哈希方法通过把高维实值图像特征映射成紧凑的二值哈希码来实现快速检索,并在映射过程中利用图像的语义相似关系对哈希码进行约束保证检索精度。在大数据环境下,有监督的哈希方法往往依赖大量的标注图像数据获得较高的检索准确率,而只有少量的标注数据时,有监督的哈希方法性能会大幅度降低。中国专利申请CN109800314A公开了一种利用深度卷积网络生成用于图像检索的哈希码的方法,其在分类层前添加一个哈希层,哈希层的输出经过二值化后获得图像的哈希码,但该申请是使用大量的标记数据训练哈希模型来获得较好的检索性能,但是在实际场景中,标记大量的数据需要耗费巨大的人力、物力资源。因此,深度半监督哈希方法被提出,该方法利用少量的标记数据和大量的无标记数据来学习更好的哈希函数。
已有的半监督哈希方法主要利用无标记数据和标记数据的视觉相似性来指导无标记数据哈希码的学习,通过在哈希空间中保持无标记样本与标记样本之间在视觉上近邻关系实现哈希函数学习。因此,很多研究人员都在努力尝试构建可靠的样本近邻关系。这些研究工作大致可以分为基于图的方法和基于关系一致性的方法。基于图的方法利用样本间的视觉相似性构造一个近似图,其中图上的节点表示标记数据和无标记数据,图上的边反映样本间的视觉相似度。基于关系一致性的方法采用自集成模型生成每一个样本的集成特征,并利用成对样本间的集成特征的视觉相似性表示样本间的语义相似关系。
目前上述半监督哈希方法使用样本间的视觉相似性表示样本间的语义相似关系,但是视觉相似性并不能反映样本间真实的语义相似关系,具有相似的视觉信息的两个样本可能来自两个不同的类别。因此,使用错误的视觉相似性指导哈希码的学习,会导致两个样本学习到的哈希码的相似性与真实的语义相似关系不一致。
发明内容
针对现有方法存在的问题,本发明的目的在于设计一种基于扰动一致性自集成的半监督图像检索方法及装置,通过集成一个无标记样本在不同数据增强条件下的网络输出获得一个具有判别性的全局特征,然后通过约束无标记样本的网络输出与其全局特征保持一致,提高网络的泛化能力。
本发明的技术内容包括:
一种基于扰动一致性自集成的半监督图像检索方法,其步骤包括:
1)将图像输入训练后的半监督图像特征提取模型,得到该图像的特征,其中所述半监督图像特征提取模型包括:一卷积神经网络、一哈希层和一扰动一致性自集成模块,使用少量有标记数据与大量无标记数据对所述半监督图像特征提取模型进行如下训练:
1.1)利用少量有标记数据对预训练卷积神经网络及哈希层进行训练,得到初步训练的卷积神经网络及哈希层;
1.2)通过扰动一致性自集成模块,最大化无标记数据xk的哈希层输出hk与集成特征的相似性,训练初步训练的卷积神经网络及哈希层,得到训练后的卷积神经网络及哈希层,并生成集成特征其中t为迭代次数,k为无标记数据的编号,集成特征通过hk和加权求和得到;
2)将该图像的特征转换为图像离散的二值哈希码;
3)依据二值哈希码进行检索,得到图像检索结果。
进一步地,将有标记数据与无标记数据输入训练后的卷积神经网络之前,分别获取有标记数据及无标记数据的增强数据,并通过有标记数据及无标记数据的增强数据训练得到所述半监督图像特征提取模型。
进一步地,所述半监督图像特征提取模型还包括一分类层;在通过无标记数据训练初步训练的卷积神经网络及哈希层之前,利用有标记数据相应的fc7特征对分类层进行训练,得到训练后的分类层,其中fc7特征为卷积神经网络的全连接层输出。
进一步地,进行分类训练的分类损失函数Lc=∑j∈L-yjlogfj,其中yj为有标记数据xj的真实标记,fj为有标记数据xj的分类层预测结果,j为有标记数据的编号,L为有标记数据集。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明的积极效果为:
1)通过集成同一个样本在不同数据增强条件下的哈希层特征,能够发现每个类别的判别特征;
2)通过设计的扰动一致性损失函数最大化无标记数据的哈希层输出与对应的集成特征的相似性,充分地利用了无标记数据提升网络的泛化能力;
3)能够取得更好的检索效果。
附图说明
图1为本发明的半监督哈希框架示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术核心作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出了最大化无标记数据的哈希层输出与对应的集成特征之间的相似性能够提升网络的泛化能力,并设计了基于扰动一致性自集成的半监督哈希框架(Disturbance Consistent Self-Ensembling,DCSE),如图1所示。该框架包括三个部分:(1)一个骨干网络,该网络包括一个卷积神经网络、一个哈希层和一个分类层。(2)一个成对相似性保持损失函数和一个分类损失函数,用于在标记数据集上学习哈希码和执行图像分类。(3)一个扰动一致性自集成模块,该模块首先对在不同数据增强条件下的同一个无标记样本的网络输出进行集成形成一个全局特征,然后使用设计的扰动一致性损失函数最大化样本的网络输出和其对应的集成特征的相似性。
具体做法是首先把在不同数据增强条件下的有标记的数据和无标记的数据输入到神经网络中得到fc7层特征。
在标记数据流中,把标记数据的全连接层的输出fc7特征传递到分类层进行分类,分类损失函数如下:
Lc=∑j∈L-yjlogfj (1)
其中yj和fj是标记数据xj真实标记和分类层预测结果,L表示标记数据集。同时标记数据的fc7特征传递到哈希层进行哈希码学习,成对相似性保持损失函数如下:
在无标记数据流中,我们建立一个存储空间(memory bank)用来存储每个样本集成的全局特征,具体做法是,我们设计一个新颖的扰动一致性损失函数Lu用来最大化当前的无标记样本xk的输出hk和其对应的集成特征的相似性。
为验证本发明,我们进行了大量实验,以评估DCSE的检索效果。我们的模型在图像数据集CIFAR-10与NUS-WIDE上进行训练和测试。其中CIFAR-10有60000张图像,我们随机地每类选择100张图片作为查询集,剩余的图片作为检索集,其中在检索集中每类选择500张图像作为标记数据集,剩余的图片作为无标记的数据集。NUS-WIDE数据集包含大约270000张图片,我们选择出现最多的21个类别,其中每个类别至少5000张图片。之后每类随机选择100张作为查询集,剩余的图片作为检索集。在训练阶段,在检索集中随机每类选择500张作为有标记数据集,剩余的作为无标记数据集。我们的基础网络使用预训练的VGG16。
表1展示了DCSE和其它图像检索方法在CIFAR-10和NUS-WIDE上的mAP结果,包括:局部敏感哈希(LSH),迭代量化(ITQ),监督离散哈希(SDH),卷积神经网络哈希(CNNH),网络在网络中哈希(NINH),半监督深度哈希(SSDH),二部图深度哈希(BGDH),半监督生成对抗哈希(SSGAH),半监督深度成对哈希(SSDPH),广义乘积量化(GPQ)。实验结果表明本发明优于其它的对比方法。
表2展示了DCSE的消融实验的结果,DCSE-1是DCSE移除扰动一致性自集成模块的变种。实验结果表明,本发明提出的扰动一致性自集成模块显著地提升了半监督检索性能。
表3展示了未见类别的实验结果,在这个实验中,我们使用数据集中的75%的类别用于训练,剩余的25%的类别用于测试。具体来说,我们把数据集划分成4个部分:train75,test75,train25和test25,其中train75和test75属于数据集中75%的类别,train25和test25属于数据集的25%的类别。我们使train75做为有标记的训练集,train25和test75做为检索集,test25做为查询集。实验结果表明,本发明优于其他对比方法。
表1不同方法在两个数据集上不同bit长度的mAP结果
表2消融实验结果
表3未见类别实验结果
以上所述实施例仅表达了本发明的实施方式,其描述较为具体,但并不能因此理解为对本发明专利范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应当以所附权利要求为准。
Claims (10)
1.一种基于扰动一致性自集成的半监督图像检索方法,其步骤包括:
1)将图像输入训练后的半监督图像特征提取模型,得到该图像的特征,其中所述半监督图像特征提取模型包括:一卷积神经网络、一哈希层和一扰动一致性自集成模块,使用少量有标记数据与大量无标记数据对所述半监督图像特征提取模型进行如下训练:
1.1)利用少量有标记数据对预训练卷积神经网络及哈希层进行训练,得到初步训练的卷积神经网络及哈希层;
1.2)通过扰动一致性自集成模块,最大化无标记数据xk的哈希层输出hk与集成特征的相似性,训练初步训练的卷积神经网络及哈希层,得到训练后的卷积神经网络及哈希层,并生成集成特征其中t为迭代次数,k为无标记数据的编号,集成特征通过hk和加权求和得到;
2)将该图像的特征转换为图像离散的二值哈希码;
3)依据二值哈希码进行检索,得到图像检索结果。
2.如权利要求1所述的方法,其特征在于,将有标记数据与无标记数据输入训练后的卷积神经网络之前,分别获取有标记数据及无标记数据的增强数据,并通过有标记数据及无标记数据的增强数据训练得到所述半监督图像特征提取模型。
3.如权利要求1所述的方法,其特征在于,所述半监督图像特征提取模型还包括一分类层;在通过无标记数据训练初步训练的卷积神经网络及哈希层之前,利用有标记数据相应的fc7特征对分类层进行训练,得到训练后的分类层,其中fc7特征为卷积神经网络的全连接层输出。
4.如权利要求3所述的方法,其特征在于,进行分类训练的分类损失函数Lc=∑j∈L-yjlogfj,其中yj为有标记数据xj的真实标记,fj为有标记数据xj的分类层预测结果,j为有标记数据的编号,L为有标记数据集。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-9中任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110226266.8A CN112883216B (zh) | 2021-03-01 | 2021-03-01 | 基于扰动一致性自集成的半监督图像检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110226266.8A CN112883216B (zh) | 2021-03-01 | 2021-03-01 | 基于扰动一致性自集成的半监督图像检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883216A true CN112883216A (zh) | 2021-06-01 |
CN112883216B CN112883216B (zh) | 2022-09-16 |
Family
ID=76055106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110226266.8A Active CN112883216B (zh) | 2021-03-01 | 2021-03-01 | 基于扰动一致性自集成的半监督图像检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883216B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762393A (zh) * | 2021-09-08 | 2021-12-07 | 杭州网易智企科技有限公司 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
CN114972118A (zh) * | 2022-06-30 | 2022-08-30 | 抖音视界(北京)有限公司 | 检查图像的降噪方法、装置、可读介质和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
CN109241313A (zh) * | 2018-08-14 | 2019-01-18 | 大连大学 | 一种基于高阶深度哈希学习的图像检索方法 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
-
2021
- 2021-03-01 CN CN202110226266.8A patent/CN112883216B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180276528A1 (en) * | 2015-12-03 | 2018-09-27 | Sun Yat-Sen University | Image Retrieval Method Based on Variable-Length Deep Hash Learning |
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
CN109241313A (zh) * | 2018-08-14 | 2019-01-18 | 大连大学 | 一种基于高阶深度哈希学习的图像检索方法 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762393A (zh) * | 2021-09-08 | 2021-12-07 | 杭州网易智企科技有限公司 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
CN113762393B (zh) * | 2021-09-08 | 2024-04-30 | 杭州网易智企科技有限公司 | 模型训练方法、注视点检测方法、介质、装置和计算设备 |
CN114972118A (zh) * | 2022-06-30 | 2022-08-30 | 抖音视界(北京)有限公司 | 检查图像的降噪方法、装置、可读介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112883216B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Cao et al. | Deep visual-semantic quantization for efficient image retrieval | |
CN109165306B (zh) | 基于多任务哈希学习的图像检索方法 | |
Wang et al. | Semi-supervised hashing for scalable image retrieval | |
CN114595333B (zh) | 一种用于舆情文本分析的半监督方法和装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
Li et al. | Deep joint semantic-embedding hashing. | |
Wu et al. | Distance metric learning from uncertain side information with application to automated photo tagging | |
CN111914156A (zh) | 自适应标签感知的图卷积网络跨模态检索方法、系统 | |
US11803971B2 (en) | Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes | |
CN112883216B (zh) | 基于扰动一致性自集成的半监督图像检索方法及装置 | |
Li et al. | A locality sensitive low-rank model for image tag completion | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
CN114461804B (zh) | 一种基于关键信息与动态路由的文本分类方法、分类器及系统 | |
Zhang et al. | ObjectPatchNet: Towards scalable and semantic image annotation and retrieval | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
Shen et al. | DSRPH: deep semantic-aware ranking preserving hashing for efficient multi-label image retrieval | |
Li et al. | Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching | |
Dong et al. | Training inter-related classifiers for automatic image classification and annotation | |
Putra et al. | Hate speech detection using convolutional neural network algorithm based on image | |
Tian et al. | Automatic image annotation with real-world community contributed data set | |
CN116363460A (zh) | 基于主题模型的高分辨率遥感样本标注方法 | |
Renuse et al. | Multi label learning and multi feature extraction for automatic image annotation | |
Yu et al. | Graph regularized unsupervised deep hashing for large scale image retrieval | |
CN114329472B (zh) | 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |