CN105808723A - 基于图片语义和视觉散列的图片检索方法 - Google Patents
基于图片语义和视觉散列的图片检索方法 Download PDFInfo
- Publication number
- CN105808723A CN105808723A CN201610128827.XA CN201610128827A CN105808723A CN 105808723 A CN105808723 A CN 105808723A CN 201610128827 A CN201610128827 A CN 201610128827A CN 105808723 A CN105808723 A CN 105808723A
- Authority
- CN
- China
- Prior art keywords
- formula
- picture
- sigma
- hash
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Abstract
本发明公开了基于图片语义和视觉散列的图片检索方法,该方法能同时表征图片语义相似性和视觉相似性的新颖的散列函数。本发明方法包括以下步骤:首先利用图片特性和视觉特性训练语义散列函数;然后,利用最大熵原则,获得紧凑的二进制码;最后,利用函数衰减原理,消除视觉特征的噪声。本发明能满足两方面的一致性:一是能满足散列二进制码和图片语义表示间的一致性,二是能满足散列二进制码和图片视觉表征的一致性。本发明可以方便人们在公共图片库中检索感兴趣的图片,在公共视频库中具有良好的检测性能。
Description
技术领域
本发明一种基于图片语义和视觉散列的图片检索方法,属于图像处理技术领域。
背景技术
近几年,随着上传到共享网站上图片数量的急剧增加,越来越多的用户开始为图片提供标签,从而导致在巨大的图片库中检索感兴趣图片要付出可观的代价。
由于二进制散列编码具有良好的计算能力和高校的存储效率,逐渐在计算机视觉、信息检索和数据挖掘等领域成为研究热点。散列方法的重要原理在于汉明空间(即汉明距离)中对高维图片数据进行紧凑的二进制编码,如能尽量保持原始特征空间的度量相似性或基于标签的语义相似性。经过散列编码处理后,即可通过简单计算紧凑二进制码向量间的汉明距离,在生成的低维码空间中进行高效的相似性搜索。
包括局部敏感散列算法、最小对散列算法、核局部敏感散列算法等在内的早期散列编码的数据是独立的,这些随机散列方法在大规模图片搜索中的准确性通常较低。
为提高图片检索的准确性,有学者将数据的相关性引入到散列函数的构造中,且这类散列函数的构造方法分为以下两种类型:无监督和监督(即包含半监督)方法。一方面,无监督构造方法旨在利用数据分布信息来构造散列函数,包括谱散列法、各向同性散列法、迭代量化法、球形散列法等;另一方面,有监督构造方法旨在利用标签信息来构造散列函数,包括有监督散列法、二进制重建嵌入法、半监督散列法、多指标散列法、加权分量散列法等。
尽管目前很多基于数据相关的散列方法都可有效地完成大规模的图片检索任务,但是,目前这类方法能否应用于网络图片的检索仍存在很大争议。因此,如何构造融合视觉表示和语义表示的散列编码是很有意义和必要的。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于解决了现有技术中当构建语义散列函数时,未能很好利用视觉相似性属性的问题,提供了一种基于基于图像语义和视觉散列的图像检索方法,该方法构建能同时表征图片语义相似性和视觉相似性的新颖的散列函数,不仅符合人们的逻辑思维,还具有更强的图片检索性能。
本发明解决其技术问题所采取的技术方案是:本发明是基于图像语义和视觉散列的图像检索方法,该方法包括以下步骤:
步骤1:利用图片特性和视觉特性训练语义散列函数;
步骤2:利用最大熵原则,获得紧凑的二进制码;
步骤3:利用函数衰减原理,消除视觉特征的噪声。
本发明所述步骤1包括:
1、散列函数定义
本发明利用图片特性和视觉特性训练语义散列函数,散列函数如下定义:
I’={Ii}Ni=1表示一个含有N幅图片的数据集,X={xi}Ni=1表示对应的特征矩阵,其中xi∈Rd为第i个图片Ii的d维特征描述子),且本发明对X进行归一化。此外,Y={yi}M×N为该N幅图片间的类别向量,其中M表示类别总数。Yi=1表示某个类别出现,yi=0表示某个类别未出现。本发明研究如何利用一系列散列函数H=[h1,h2,…,hc]∈Rd×c,在保留图片语义和视觉相似性的条件下,将每个图片特征xi映射到到用C比特的二进制码b=[b1,b2,…,bc]∈{0,1}c。
本发明的散列函数表示如下:
上式中的sgn(v)为符号函数:当v>0时,函数值为1;否则,函数值为-1。W=[w1,w2,…,wc]∈Rd×c为一系列适当的预测函数。选择图片投影的均值作为偏差项m=∑N i=1(xi/N),为的是让每个散列比特bc(xi)接近平衡,且有最大熵:
Bc(xi)=0.5(hc(xi)+1)式2
上式中的hc(xi)=1时Bc(xi)=1,hc(xi)=-1时Bc(xi)=0。
由H=[h1,h2,…,hc]∈Rd×c,所以xi的相关性散列码可表示为:
H(xi)=sgn(WTxi-WTm)式3
由于对X进行了归一化,所以H(xi)可写为如下形式:
H(xi)=sgn(WTxi)式4
由于图片X={xi}Ni=1,所以相关性散列码H(X)可表示成如下形式:
H(X)=sgn(WTX)式5
2、邻域信息保存
为探索原始数据的潜在信息,应尽量保留原始数据的邻域结构特征。所以,本发明构建元素为Sij的N×N相似矩阵S时,就充分利用了图片数据的局部邻域信息:
上式中的K(xi)表示特征向量xi的k近邻。
两幅图片Ii和Ij间的汉明距离d(h(xi),h(xj)),是计算它们各自散列二进制码h(xi)和h(xj)不同的比特数:
接着,图片Ii和Ij间的相似性SH(Ii,Ij)可定义为h(xi)和h(xj)间汉明距离的均值:
上式中,当Ii和Ij完全相同时SH(Ii,Ij)=1,当Ii和Ij完全不同时SH(Ii,Ij)=0。
基于邻域信息,图片Ii和Ij间的相似性可表示为:
从式9中可看出以下两点:式1当且仅当h(xi)=h(xj)且Ii和Ij为k近邻时,SH(Ii,Ij)才为1;式2当h(xi)=h(xj),但Ii和Ij不是k近邻,此时SH(Ii,Ij)仍然等于0。也就是说,式9可用于有效地保存邻域信息,这将在后面的实验中得到验证。
3、散列函数研究
正如上述所言,利用语义和视觉信息是为了确保汉明空间中,相似的图片映射到相似的散列码上,且此时的目标函数表示为:
上式中的SH、SS、SV分别表示汉明空间、语义空间、视觉空间中的相似性,分别定义为:
上式中的μ为‖xi-xj‖的中值。
除保留映射相似性外,二进制散列码还具有紧凑性和判别性。二进制散列码的紧凑性,表现为每个二进制散列码只可能是-1或1,这可通过最小化如下所示的函数得到:
这类似于最大化二进制码向量的熵。二进制散列码的判别性,表现为每个二进制散列码都应尽可能接近-1或1,这可通过最大化如下所示的函数得到:
因此,二进制散列码紧凑性和判别性的最优化为:
本发明包括矩阵熵,该矩阵熵的最大值等价于矩阵方差的最大值,且散列函数方差的最大值小于投影数据方差的上界,由此可得到下面的等式,即:
为消除视觉信息噪声,引入函数衰减原理,即:
上式中,当相关视觉特征是噪声时‖wc‖=0。
利用公式式10的相似性保持、公式式15的二进制散列码的紧凑性和判别性、公式式17的视觉特征噪声消除这三个条件,得到图片检索最优的目标函数:
式18
上式中的λ、μ、ν为控制每一项权重的参数。
本发明更新速率为ζ的随机梯度下降迭代算法,用于求解目标函数:
式19
上式中的∏∈Rc×d是一个对角矩阵,其元素为∏c=1/‖wc‖2。
有益效果:
1、本发明能够有效地提高图片检索的速度。
2、本发明能够有效地提高图片检索的精度。
3、本发明能够很好地应用于大型图片库的检索。
附图说明
图1为本发明显示了来自“鸟”和“日落”的图片示例图。
其中,(a)表示来自类别“鸟”的图片样例;(b)表示来自类别“日落”的图片样例。
图2为本发明显示了不同长度的二进制散列码下,不同方法的平均检索精度和32位二进制散列码时,不同方法的检索精度示意图。
图3为本发明显示了汉明半径为2时,各种方法在不同长度二进制散列码下的检索精度示意图。
图4为本发明的方法流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
如图4所示,本发明是利用文本信息和视觉信息表征图片间的语义信息,进行图像检索。
本发明提出了一种新的散列函数构造方法,该方法通过优化目标函数,可最大化二进制散列码,且消除视觉噪声,其具体实现过程包括:
1.数据集
本发明的所有实验都在NUS-WIDE图片集上进行。该NUS-WIDE图片集含有81类别的270,000幅图片,以及5018个用户上传的标签。由于许多用户提供的标签存在错误或无意义,因此,有必要对这些标签进行处理。更具体地说,只有在维基百科中出现的标签才保留。结果这样的处理后,共得到3,226个标签。
2.特征选择
近几十年来,特征选择问题一直是个研究课题,这是因为特征选择会影响最终的检索结果。本发明提取颜色特征和纹理特征作为低层描述子,同时提取语义特征和文本特征作为视觉描述子。具体描述如下:
·在HSV空间中,提取色度为8位、饱和度和纯度均为4位的128维颜色直方图;
·在HSV空间中,提取44维的自相关矩阵;
·在LAB色彩空间中,分别从5*5网格的子块中提取9维、共计225维的颜色矩阵;
·在HSV色彩空间中,分别在水平和垂直方向提取9维、共计18维量的边界方向直方图;
·提取6级、36维的金字塔小波纹理超;
·从标签中提取一组文本特征,且依据标签出现的次数得到对应的词袋;
本发明基于图像语义和视觉散列的图像检索方法的一个优选实施方式,具体包括以下步骤:
步骤1:利用图片特性和视觉特性训练语义散列函数。
利用语义和视觉信息是为了确保汉明空间中,相似的图片映射到相似的散列码上,且此时的目标函数表示为:
上式中的SH、SS、SV分别是汉明空间、语义空间、视觉空间中的相似性,分别定义为:
上式中的μ为‖xi-xj‖的中值。
步骤2:利用最大熵原则,获得紧凑的二进制码;
除保留映射相似性外,二进制散列码还具有紧凑性和判别性。二进制散列码的紧凑性,表现为每个二进制散列码只可能是-1或1,这可通过最小化如下所示的函数得到:
这类似于最大化二进制码向量的熵。二进制散列码的判别性,表现为每个二进制散列码都应尽可能接近-1或1,这可通过最大化如下所示的函数得到:
因此,二进制散列码紧凑性和判别性的最优化为:
矩阵熵的最大值等价于矩阵方差的最大值,且散列函数方差的最大值小于投影数据方差的上界,由此可得到下面的等式:
上式3为二进制码位数,N为数据集中图像个数,此处C=32,N=2,000。
步骤3:利用函数衰减原理,消除视觉特征的噪声。
为消除视觉信息噪声,引入函数衰减原理:
上式中,当相关视觉特征是噪声时‖wc‖=0。
利用公式式10的相似性保持、公式式15的二进制散列码的紧凑性和判别性、公式式17的视觉特征噪声消除这三个条件,得到图片检索最优的目标函数:
式18
上式中的λ、μ、ν为控制每一项权重的参数。
本发明包括更新速率为ζ的随机梯度下降迭代算法,用于求解目标函数:
式19
上式中的∏∈Rc×d是一个对角矩阵,其元素为∏c=1/‖wc‖2。
Claims (7)
1.基于图片语义和视觉散列的图片检索方法,其特征在于,包括以下步骤:
步骤1:利用图片特性和视觉特性训练语义散列函数;
步骤2:利用最大熵原则,获得紧凑的二进制码;
步骤3:利用函数衰减原理,消除视觉特征的噪声。
2.根据权利要求1所述的基于图片语义和视觉散列的图片检索方法,其特征在于,所述步骤1包括:利用图片特性和视觉特性训练语义散列函数,所述的散列函数表示如下:
选择图片投影的均值作为偏差项让每个散列比特bc(xi)接近平衡,且有最大熵,即:
Bc(xi)=0.5(hc(xi)+1)式2
由H=[h1,h2,…,hc]∈Rd×c,所以xi的相关性散列码表示为:
H(xi)=sgn(WTxi-WTm)式3
由于对X进行了归一化,所以H(xi)表示为如下形式:
H(xi)=sgn(WTxi)式4
由于图片X={xi}Ni=1,所以相关性散列码H(X)表示成如下形式:
H(X)=sgn(WTX)式5
式2为探索原始数据的潜在信息,应尽量保留原始数据的邻域结构特征,构建元素为Sij的N×N相似矩阵S时,就充分利用了图片数据的局部邻域信息,即:
上式中的K(xi)表示特征向量xi的k近邻;
两幅图片Ii和Ij间的汉明距离d(h(xi),h(xj)),是计算它们各自散列二进制码h(xi)和h(xj)不同的比特数,即:
接着,图片Ii和Ij间的相似性SH(Ii,Ij)定义为h(xi)和h(xj)间汉明距离的均值,即:
上式中,当Ii和Ij完全相同时SH(Ii,Ij)=1,当Ii和Ij完全不同时SH(Ii,Ij)=0;
基于邻域信息,图片Ii和Ij间的相似性表示为:
式9用于保存邻域信息。
3.根据权利要求1或2所述的基于图片语义和视觉散列的图片检索方法,其特征在于,所述方法利用语义和视觉信息是为了确保汉明空间中,相似的图片映射到相似的散列码上,且此时的目标函数表示为:
上式中的SH、SS、SV分别表示汉明空间、语义空间、视觉空间中的相似性,分别定义为:
上式中的μ为‖xi-xj‖的中值;
除保留映射相似性外,二进制散列码还具有紧凑性和判别性,二进制散列码的紧凑性,表现为每个二进制散列码只可能是-1或1,通过最小化函数得到,即:
这类似于最大化二进制码向量的熵,二进制散列码的判别性,表现为每个二进制散列码都应尽可能接近-1或1,通过最大化如下所示的函数得到,即:
因此,二进制散列码紧凑性和判别性的最优化为:
4.根据权利要求3所述的基于图片语义和视觉散列的图片检索方法,其特征在于,所述方法包括矩阵熵,所述矩阵熵的最大值等价于矩阵方差的最大值,且散列函数方差的最大值小于投影数据方差的上界,由此得到下面的等式,即:
5.根据权利要求4所述的基于图片语义和视觉散列的图片检索方法,其特征在于,所述方法为消除视觉信息噪声,引入函数衰减原理,包括:
上式中,当相关视觉特征是噪声时‖wc‖=0;
利用式10的相似性保持、式15的二进制散列码的紧凑性和判别性、式17的视觉特征噪声消除这三个条件,得到图片检索最优的目标函数,即:
式18
上式中的λ、μ、ν为控制每一项权重的参数。
6.根据权利要求5所述的基于图片语义和视觉散列的图片检索方法,其特征在于,所述的更新速率为ζ的随机梯度下降迭代算法,用于求解目标函数,即:
式19
上式中的∏∈Rc×d是一个对角矩阵,其元素为∏c=1/‖wc‖2。
7.根据权利要求5所述的基于图片语义和视觉散列的图片检索方法,其特征在于:所述方法应用于大型图片库的检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610128827.XA CN105808723B (zh) | 2016-03-07 | 2016-03-07 | 基于图片语义和视觉散列的图片检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610128827.XA CN105808723B (zh) | 2016-03-07 | 2016-03-07 | 基于图片语义和视觉散列的图片检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105808723A true CN105808723A (zh) | 2016-07-27 |
CN105808723B CN105808723B (zh) | 2019-06-28 |
Family
ID=56466852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610128827.XA Active CN105808723B (zh) | 2016-03-07 | 2016-03-07 | 基于图片语义和视觉散列的图片检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808723B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711442A (zh) * | 2018-12-15 | 2019-05-03 | 中国人民解放军陆军工程大学 | 无监督逐层生成对抗特征表示学习方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1221662A2 (en) * | 2001-01-09 | 2002-07-10 | Samsung Electronics Co., Ltd. | Image retrieval method |
CN103425768A (zh) * | 2013-08-07 | 2013-12-04 | 浙江商业职业技术学院 | 一种视觉与语义相似性约束的图像检索方法 |
CN104376051A (zh) * | 2014-10-30 | 2015-02-25 | 南京信息工程大学 | 随机结构保形哈希信息检索方法 |
CN105260385A (zh) * | 2015-09-10 | 2016-01-20 | 上海斐讯数据通信技术有限公司 | 一种图片检索方法 |
-
2016
- 2016-03-07 CN CN201610128827.XA patent/CN105808723B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1221662A2 (en) * | 2001-01-09 | 2002-07-10 | Samsung Electronics Co., Ltd. | Image retrieval method |
CN103425768A (zh) * | 2013-08-07 | 2013-12-04 | 浙江商业职业技术学院 | 一种视觉与语义相似性约束的图像检索方法 |
CN104376051A (zh) * | 2014-10-30 | 2015-02-25 | 南京信息工程大学 | 随机结构保形哈希信息检索方法 |
CN105260385A (zh) * | 2015-09-10 | 2016-01-20 | 上海斐讯数据通信技术有限公司 | 一种图片检索方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711442A (zh) * | 2018-12-15 | 2019-05-03 | 中国人民解放军陆军工程大学 | 无监督逐层生成对抗特征表示学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105808723B (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cao et al. | Enhancing remote sensing image retrieval using a triplet deep metric learning network | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
US20170220864A1 (en) | Method for Implementing a High-Level Image Representation for Image Analysis | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
Weng et al. | Land-use scene classification based on a CNN using a constrained extreme learning machine | |
Qayyum et al. | Scene classification for aerial images based on CNN using sparse coding technique | |
CN104036012B (zh) | 字典学习、视觉词袋特征提取方法及检索系统 | |
Zhao et al. | Scene classification via latent Dirichlet allocation using a hybrid generative/discriminative strategy for high spatial resolution remote sensing imagery | |
CN106777038A (zh) | 一种基于序列保留哈希的超低复杂度图像检索方法 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN108491430A (zh) | 一种基于对特征方向进行聚类的无监督哈希检索方法 | |
CN104317902A (zh) | 基于局部保持迭代量化哈希的图像检索方法 | |
Ontrup et al. | Hyperbolic self-organizing maps for semantic navigation | |
Serrano-Talamantes et al. | Self organizing natural scene image retrieval | |
Ye et al. | Parallel multi-stage features fusion of deep convolutional neural networks for aerial scene classification | |
Zhong et al. | Scene classification based on multifeature probabilistic latent semantic analysis for high spatial resolution remote sensing images | |
CN110866564B (zh) | 多重半监督图像的季节分类方法、系统、电子设备和介质 | |
Dou et al. | Remote sensing imagery classification using AdaBoost with a weight vector (WV AdaBoost) | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
Ge et al. | Region-based cascade pooling of convolutional features for HRRS image retrieval | |
Wang et al. | Multiple resolution block feature for remote-sensing scene classification | |
Tian et al. | Object detection in optical remote sensing images by integrating object-to-object relationships | |
CN103377381B (zh) | 识别图像的内容属性的方法和装置 | |
Kordopatis-Zilos et al. | Placing Images with Refined Language Models and Similarity Search with PCA-reduced VGG Features. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210003 new model road 66, Gulou District, Nanjing, Jiangsu Applicant after: Nanjing Post & Telecommunication Univ. Address before: 210023 9 Wen Yuan Road, Qixia District, Nanjing, Jiangsu. Applicant before: Nanjing Post & Telecommunication Univ. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |