CN108399185B - 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 - Google Patents
一种多标签图像的二值向量生成方法及图像语义相似度查询方法 Download PDFInfo
- Publication number
- CN108399185B CN108399185B CN201810023335.3A CN201810023335A CN108399185B CN 108399185 B CN108399185 B CN 108399185B CN 201810023335 A CN201810023335 A CN 201810023335A CN 108399185 B CN108399185 B CN 108399185B
- Authority
- CN
- China
- Prior art keywords
- picture
- neural network
- network model
- convolutional neural
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多标签图像的二值向量生成方法及图像语义相似度查询方法。本发明1利用训练数据集对卷积神经网络模型进行训练,直至该卷积神经网络模型的损失值趋于稳定;然后利用训练后的卷积神经网络模型对图像数据库中的图片进行计算,得到每张图片的二值向量并进行存储;利用训练后的卷积神经网络模型计算待查询图片的二值向量,并将其与存储的二值向量进行相似度计算,根据相似度计算结果返回与该待查询图片最相似的若干图片。本发明大大提高了图像的存储效率和查询效率;而且可以根据与查询图片的多级语义相似度对目标图片进行排序。
Description
技术领域
本发明主要应用于图像检索领域,涉及一种多标签图像的二值向量生成方法及针对多标签图像语义特征的相似度查询方法。
背景技术
近年来,随着网络技术的快速发展,每天都有成千上万的图片上传至互联网中,如何从海量的图片中根据不同用户需求快速准确地检索出相关图片已经成为研究的热点和难点。比如,基于内容的图像检索需要检索出和查询图片内容相似的目标图片,这里的“相似”指视觉或者语义相似。面向图像语义特征的哈希算法将图像高维原始特征映射到低维二进制特征的同时保留了图像语义信息,因此受到广泛关注。
目前主流的面向图像语义特征的哈希算法利用深度学习技术能够同时提取图像语义特征并学习哈希函数,但仍有以下局限:(1)绝大多数的哈希算法只能简单区分相似和不相似的图片,对于含有多级语义相似度的多标签图像效果不佳。(2)面向多标签图像的哈希算法无法有效区分相似度不同的多标签图片。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种多标签图像的二值向量生成方法及大规模多标签图像语义相似度查询方法。本发明基于卷积神经网络模型,通过精心设计的损失函数学习模型参数,实现同时提取图像原始特征并学习哈希函数,最终输出的图像二进制编码具有以下性质:
●由1、-1组成,同时提高了存储和查询效率;
●可以根据与查询图片的多级语义相似度对目标图片进行排序;
●在图像特征编码较短的情况下,仍能根据语义相似度有效区分目标图片,特别是返回结果前几条的准确率较主流算法更高。
本发明的技术方案为:
一种多标签图像的二值向量生成方法,其步骤包括:
1)利用训练数据集对卷积神经网络模型进行训练,直至该卷积神经网络模型的损失值趋于稳定;其中,每次训练时的训练数据集包括N对图片,对于第i对图片Ii,1、Ii,2,设图片Ii,1的标签数量为ni,1,第i对图像中图片Ii,1与图片Ii,2共同关联的标签数量为ni,2,计算所述损失值的损失函数η为
其中,ni,1=ni,2时,yi=0,否则yi=1;Ones代表元素全为1的向量,||·||1表示向量的第一范数,表示向量间的欧式距离,|·|表示对向量每位元素进行绝对值操作,α是用来控制量化损失大小的参数,w为卷积神经网络模型的哈希层的权重向量,f(I;w)为卷积神经网络模型输出的图片I的k位二值向量,m是指汉明距离阈值参数;
2)利用训练后的卷积神经网络模型计算图片的二值向量。
一种多标签图像语义相似度查询方法,其步骤包括:
1)利用训练数据集对卷积神经网络模型进行训练,直至该卷积神经网络模型的损失值趋于稳定;其中,每次训练时的训练数据集包括N对图片,对于第i对图片Ii,1、Ii,2,设图片Ii,1的标签数量为ni,1,第i对图像中图片Ii,1与图片Ii,2共同关联的标签数量为ni,2,计算所述损失值的损失函数η为
其中,ni,1=ni,2时,yi=0,否则yi=1;Ones代表元素全为1的k位向量,||·||1表示向量的第一范数,表示向量间的欧式距离,|·|表示对向量每位元素进行绝对值操作,α是用来控制量化损失大小的参数,w为卷积神经网络模型的哈希层的权重向量,f(I;w)为卷积神经网络模型输出的图片I的k位二值向量,m是指汉明距离阈值参数;
2)利用训练后的卷积神经网络模型对图像数据库中的图片进行计算,得到每张图片的二值向量并进行存储;
3)利用训练后的卷积神经网络模型计算待查询图片的二值向量,并将其与步骤2)得到的二值向量进行相似度计算,根据相似度计算结果返回与该待查询图片最相似的若干图片。
进一步的,利用最小批次梯度下降法训练该卷积神经网络模型,使其能够最小化所述损失函数的值。
进一步的,该卷积神经网络模型包括依次连接的第一卷积层、最大池化层、第二卷积层、最大池化层、第三卷积层、第四卷积层、第五卷积层、最大池化层、第一全连接层、第二全连接层和哈希层。
进一步的,所述哈希层的哈希函数为h(x;w)=sign(f(x;w));其中,f(x;w)=wTf′(x),f′(x)为第二全连接层的输出向量;所述哈希层设有k个节点,每一节点设置一权重,这些权重构成权重向量w。
进一步的,α=0.01。
进一步的,根据待查询图片的二值向量与步骤2)得到的二值向量的汉明距离,确定所述相似度。
本发明主要包括以下内容:
1)基于卷积神经网络模型设计了一种可以同时进行图像语义特征提取和哈希函数学习的框架。利用该框架,本发明可以将多标签图像映射到二值向量并保留图像间的多级语义相似度。
2)精心设计了一种基于图像标签对的损失函数。基于该损失函数可以对模型各层参数进行学习。
与现有技术相比,本发明的积极效果为:
本发明大大提高了图像的存储效率和查询效率;而且可以根据与查询图片的多级语义相似度对目标图片进行排序。本发明在图像特征编码较短的情况下,仍能根据语义相似度有效区分目标图片,特别是返回结果前几条的准确率较主流算法更高。
附图说明
图1为本发明的框架结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
一:哈希函数
定义哈希函数h(x;w):
h(x;w)=sign(f(x;w)) (1)
f(x;w)=wTf′(x),w为哈希层的权重向量,f′(x)为全连接层七的输出向量。哈希层由一个全连接层构成,哈希层节点个数和最终需要生成的二值向量位数k相等,k值预先设定好。
二:损失函数
通过优化损失函数的方式,实现卷积神经网络模型各层参数的学习。用于训练模型的训练数据集中,每张图像对应不同的标签,标签为人工标注得到,训练时会依据图像的标签信息对图像的相似程度进行判断。设第i对图片Ii1,Ii2分别与p1,p2个标签关联,令Ii1的标签数量为ni1,则ni1=|p1|,令Ii1,Ii2共同关联的标签数量为ni2,则ni2=|p1∩p2|,当ni1=ni2时,令变量yi=0,否则yi=1,针对Ii1,Ii2的损失函数定义如下:
DH(·,·)为两个二值向量的汉明距离,m为阈值参数(m>0,后文会详细介绍m的取值)。
损失函数由两部分组成,以加号为分隔。n1=n2时,y=0,此时本发明认为两张图片非常相似,在损失函数中的体现为只要两张图像二值特征存在差异,本发明就实施惩罚;n1≠n2时,y=1,此时本发明认为两张图片一般相似或者不相似,在损失函数中的体现为两张图像的相似度不同,其二值特征向量间的汉明距离应该随之变化。当N对图片作为训练集时,本发明最终需要最小化的损失函数为:
三:损失函数的转化
等式(2)中的汉明距离以离散的方式呈现,难以直接进行优化求解,为此本发明对等式(2)进行了转化。具体地,本发明将等式(2)中的汉明距离转化为欧氏距离,同时,为了使得卷积神经网络模型的输出f(I;w)逼近1或者-1,本发明引入了量化损失。此时,对等式(2)的优化可以近似为对以下公式的优化:
损失函数由三部分组成,以加号为分隔,前两部分作用与等式(2)相同,第三部分的作用是使图片特征向量的每一位逼近1或-1,其中Ones代表元素全为1的向量,向量的长度为k(和输出的二值向量长度相同),表示向量间的欧式距离,||·||1表示向量的第一范数,|·|表示对向量每位元素进行绝对值操作,α(0<α≤1)是用来控制量化损失大小的参数。将等式(4)带入等式(3)可得:
其中,Ii,1、Ii,2是第i对图像中的两图像,ni,1是第i对图像中图像Ii,1的标签数量,ni,2是第i对图像中图像Ii,1、Ii,2共同关联的标签数量,ni,1=ni,2时,yi=0,否则yi=1;m为阈值参数。
四:模型参数的学习
卷积神经网络模型的参数包括卷积核参数以及全连接层的连接权重,确定了参数才能最终确定模型,利用模型可以提取图像的二值语义特征,最终实现海量图像的快速相似度查询匹配。模型参数的学习算法利用反向传播的思想,具体利用最小批次梯度下降法训练神经网络,使其能够最小化损失函数即式(5)的值,后续图片特征的提取都将使用训练后得到的模型式(5)可以按照加号分隔成三项(分别为Term1,Term2,Regularizer),每项对于fi,j的导数如下:
当当-1≤x≤0或x≥1时,,δ(x)=1,否则,δ(x)=0。
其中,Ii,j是第i对图像中的一个图像,j的取值为1或2,ni,1是第i对图像中一图像的标签数量,ni,2是第i对图像中Ii,1、Ii,2共同关联的标签数量,ni,1=ni,2时,yi=0,否则yi=1,i取值范围为1~N。
五、实现细节
算法基于Caffe深度学习框架实现,如图1所示,卷积层一、卷积层二和卷积层五后面有最大池化层(ReLU层),在模型训练中,最小批次梯度下降算法参数设置如下:batchsize=32,momentum=0.9,weight decay=0.004。
本发明分别对比了α={0.1,0.01,0.001}的实验效果,结果表明,当α=0.01时,检索效果最佳。
功能:计算阈值参数m
为充分利用计算资源与存储空间,本发明从每个最小批次中,在线生成图像标签对。为获得不同批次间的图像对,每完成一次全量数据集的训练,本发明都会打乱训练集的图片顺序,具体实现方式如下(Labels(I1)为图片I1关联的标签数量):
功能:在线生成图像对
实施例1
假设现在拥有人工标注好的V张图片,每张图片都有至少一个标签用来表征该图片的语义信息,这些图片将作为训练集来训练神经网络模型。
1.根据图1中的结构构建网络模型,从前到后依次是卷积层一、最大池化层一、卷积层二、最大池化层二、卷积层三、卷积层四、卷积层五、最大池化层、全连接层六、全连接层七和哈希层,其中卷积层一对图像的每个通道进行卷积操作,后面各个卷积层均对上一层的输出进行卷积操作,最大池化层对上一层的输出进行取区域最大值操作,全连接层对上一层的输出进行全连接操作,损失函数的输入是最后一个哈希层的输出。
3.随机打乱图片顺序,返回步骤2直至根据式(5)计算得到的损失值趋于稳定。确定模型中所有参数的值。
4.将图像数据库中的所有图片送入模型,得到每张图片的二值向量并进行存储。
实施例2
假设有待查询的图片,该图片不需要拥有标签信息,本发明希望在海量的图像数据库中找到何其语义最相似的图片集:
1.将其作为输入,输入到训练得到的模型中,计算得到其二值向量的值。
2.然后与数据库中的所有图片的二值向量计算汉明距离,汉明距离越小的图片与查询图片越相似。
3.根据汉明距离排序,按从小到大的顺序返回图片结果集。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (7)
1.一种多标签图像的二值向量生成方法,其步骤包括:
1)利用训练数据集对卷积神经网络模型进行训练,直至该卷积神经网络模型的损失值趋于稳定;其中,每次训练时的训练数据集包括N对图片,对于第i对图片Ii,1、Ii,2,设图片Ii,1的标签数量为ni,1,第i对图像中图片Ii,1与图片Ii,2共同关联的标签数量为ni,2,计算所述损失值的损失函数η为
其中,ni,1=ni,2时,yi=0,否则yi=1;Ones代表元素全为1的向量,||·||1表示向量的第一范数,表示向量间的欧式距离,|·|表示对向量每位元素进行绝对值操作,α是用来控制量化损失大小的参数,w为卷积神经网络模型的哈希层的权重向量,f(I;w)为卷积神经网络模型输出的图片I的k位二值向量,m是指汉明距离阈值参数;
2)利用训练后的卷积神经网络模型计算图片的二值向量。
2.一种多标签图像语义相似度查询方法,其步骤包括:
1)利用训练数据集对卷积神经网络模型进行训练,直至该卷积神经网络模型的损失值趋于稳定;其中,每次训练时的训练数据集包括N对图片,对于第i对图片Ii,1、Ii,2,设图片Ii,1的标签数量为ni,1,第i对图像中图片Ii,1与图片Ii,2共同关联的标签数量为ni,2,计算所述损失值的损失函数η为
其中,ni,1=ni,2时,yi=0,否则yi=1;Ones代表元素全为1的k位向量,||·||1表示向量的第一范数,表示向量间的欧式距离,|·|表示对向量每位元素进行绝对值操作,α是用来控制量化损失大小的参数,w为卷积神经网络模型的哈希层的权重向量,f(I;w)为卷积神经网络模型输出的图片I的k位二值向量,m是指汉明距离阈值参数;
2)利用训练后的卷积神经网络模型对图像数据库中的图片进行计算,得到每张图片的二值向量并进行存储;
3)利用训练后的卷积神经网络模型计算待查询图片的二值向量,并将其与步骤2)得到的二值向量进行相似度计算,根据相似度计算结果返回与该待查询图片最相似的若干图片。
3.如权利要求1或2所述的方法,其特征在于,利用最小批次梯度下降法训练该卷积神经网络模型,使其能够最小化所述损失函数的值。
4.如权利要求1或2所述的方法,其特征在于,该卷积神经网络模型包括依次连接的第一卷积层、最大池化层、第二卷积层、最大池化层、第三卷积层、第四卷积层、第五卷积层、最大池化层、第一全连接层、第二全连接层和哈希层。
5.如权利要求4所述的方法,其特征在于,所述哈希层的哈希函数为h(x;w)=sign(f(x;w));其中,f(x;w)=wTf′(x),f′(x)为第二全连接层的输出向量;所述哈希层设有k个节点,每一节点设置一权重,这些权重构成权重向量w。
6.如权利要求1或2所述的方法,其特征在于,α=0.01。
7.如权利要求2所述的方法,其特征在于,根据待查询图片的二值向量与步骤2)得到的二值向量的汉明距离,确定所述相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810023335.3A CN108399185B (zh) | 2018-01-10 | 2018-01-10 | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810023335.3A CN108399185B (zh) | 2018-01-10 | 2018-01-10 | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108399185A CN108399185A (zh) | 2018-08-14 |
CN108399185B true CN108399185B (zh) | 2021-12-21 |
Family
ID=63094670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810023335.3A Active CN108399185B (zh) | 2018-01-10 | 2018-01-10 | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399185B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446307A (zh) * | 2018-02-05 | 2018-08-24 | 中国科学院信息工程研究所 | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 |
US20200065676A1 (en) * | 2018-08-22 | 2020-02-27 | National Tsing Hua University | Neural network method, system, and computer program product with inference-time bitwidth flexibility |
CN109918528A (zh) * | 2019-01-14 | 2019-06-21 | 北京工商大学 | 一种基于语义保护的紧凑的哈希码学习方法 |
CN109783682B (zh) * | 2019-01-19 | 2021-01-15 | 北京工业大学 | 一种基于点对相似度的深度非松弛哈希图像检索方法 |
CN109977250B (zh) * | 2019-03-20 | 2023-03-28 | 重庆大学 | 融合语义信息和多级相似性的深度哈希图像检索方法 |
WO2021057046A1 (en) * | 2019-09-24 | 2021-04-01 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Image hash for fast photo search |
CN111209886B (zh) * | 2020-01-14 | 2023-10-31 | 中国人民解放军陆军工程大学 | 一种基于深度神经网络的快速行人再识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820696A (zh) * | 2015-04-29 | 2015-08-05 | 山东大学 | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 |
CN106951911A (zh) * | 2017-02-13 | 2017-07-14 | 北京飞搜科技有限公司 | 一种快速的多标签图片检索系统及实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024384A1 (en) * | 2014-09-02 | 2017-01-26 | Netra Systems Inc. | System and method for analyzing and searching imagery |
-
2018
- 2018-01-10 CN CN201810023335.3A patent/CN108399185B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820696A (zh) * | 2015-04-29 | 2015-08-05 | 山东大学 | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 |
CN106951911A (zh) * | 2017-02-13 | 2017-07-14 | 北京飞搜科技有限公司 | 一种快速的多标签图片检索系统及实现方法 |
Non-Patent Citations (2)
Title |
---|
Deep Hashing with Triplet Quantization Loss;yuefu zhou 等;《2017 IEEE Visual Communications and Image Processing》;20171013;全文 * |
用于图像语义检索的深度哈希算法;任伟超;《万方学位论文》;20170926;正文第1-54页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108399185A (zh) | 2018-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399185B (zh) | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 | |
CN110188227B (zh) | 一种基于深度学习与低秩矩阵优化的哈希图像检索方法 | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN109241317B (zh) | 基于深度学习网络中度量损失的行人哈希检索方法 | |
US20220391433A1 (en) | Scene graph embeddings using relative similarity supervision | |
Durand et al. | Weldon: Weakly supervised learning of deep convolutional neural networks | |
CN108038122B (zh) | 一种商标图像检索的方法 | |
Gosselin et al. | Active learning methods for interactive image retrieval | |
Yan et al. | Semi-Supervised Deep Hashing with a Bipartite Graph. | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
CN109063112B (zh) | 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法 | |
CN110196980A (zh) | 一种基于卷积网络在中文分词任务上的领域迁移 | |
CN108446334B (zh) | 一种无监督对抗训练的基于内容的图像检索方法 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN113806580B (zh) | 基于层次语义结构的跨模态哈希检索方法 | |
CN113377981B (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN111026887B (zh) | 一种跨媒体检索的方法及系统 | |
Passalis et al. | Learning neural bag-of-features for large-scale image retrieval | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
Altintakan et al. | Towards effective image classification using class-specific codebooks and distinctive local features | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
WO2021169453A1 (zh) | 用于文本处理的方法和装置 | |
CN114170333A (zh) | 基于直推式半监督深度学习的图像哈希编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |