CN106649688A - 一种图像检索方法及终端 - Google Patents
一种图像检索方法及终端 Download PDFInfo
- Publication number
- CN106649688A CN106649688A CN201611169213.2A CN201611169213A CN106649688A CN 106649688 A CN106649688 A CN 106649688A CN 201611169213 A CN201611169213 A CN 201611169213A CN 106649688 A CN106649688 A CN 106649688A
- Authority
- CN
- China
- Prior art keywords
- image
- triple
- target
- hash coding
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种图像检索方法及终端,所述方法包括:获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像;采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层;将所述图像特征三元组映射为目标哈希编码;采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。通过本发明实施例可降低相似性特征的复杂度,从而,提高图像检索效率。
Description
技术领域
本发明涉及视频监控技术领域,具体涉及一种图像检索方法及终端。
背景技术
目前来看,以图搜图是通过搜索图像文本或者视觉特征,为用户提供互联网上相关图形图像资料检索服务的专业搜索引擎系统,是搜索引擎的一种细分。涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科。商用的图像搜索引擎有谷歌图像搜索和百度图像搜索。这些搜索系统都是基于关键字和图像标签的。基于关键字的图像视频检索有着其本质的缺点。图像中内容丰富,仅用几个关键字或数句话很难表达清楚,而且不同的人对图像有不同的理解,导致同一幅图像可能会有相差很大的说明。并且,现在图像的数量呈爆炸式的增加,很多图像只有很少的文字信息或者根本就没有说明文字,想要高效地索引这些图像就需要人们手工的添加标签和说明文字,对于大量的图像来说,这是非常繁重的工作。因此,通过样本的搜索,到查询图像类似的图像搜索,已经逐渐成为现代图像搜索引擎中不可缺少的功能。一个有效的图像相似性度量是在寻找类似的图像的核心。
现有技术中,对于以图搜图算法,常用的方法种类比较多,比如基于颜色、纹理和形状等。深度训练是一种目的在于建立、模拟人脑进行分析训练的深度网络,它模仿人脑的机制来解释数据。通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。它显著的优点是可抽象出高级特征,构建出复杂高性能的模型。基于深度特征训练的以图搜图方法主要包括两个步骤:一是特征提取,提取可靠稳定的特征表达图像内容;二是特征相似度度量,将不同图像特征进行比较和相似度排序,但是,由于得到的相似性特征较为复杂,因而,图像的检索效率较低。
发明内容
本发明实施例提供了一种图像检索方法及终端,以期降低相似性特征的复杂度,从而,提高图像检索效率。
本发明实施例第一方面提供了一种图像检索方法,包括:
获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像;
采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层;
将所述图像特征三元组映射为目标哈希编码;
采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
可选地,所述将所述图像特征三元组映射为目标哈希编码,包括:
将所述图像特征三元组中处于所述预设卷积网络的指定层特征分割成等长的Q个片段,所述Q为大于1的整数;
通过所述预设卷积网络的全连接层分别将所述Q个片段映射成一维向量,得到所述Q个一维向量;
通过sigmoid激活函数将所述Q个一维向量的值限制在0到1之间,得到所述Q个目标一维向量;
按照如下公式将所述Q个目标一维向量的值转换成二进制的哈希编码,得到所述Q个哈希编码:
其中:ε为预设阈值,s为一维向量的任一位,H为哈希编码;
将所述Q个哈希编码进行连接,得到所述目标哈希编码。
可选地,所述采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征,包括:
按照如下公式对所述目标哈希编码进行训练,得到目标相似性特征:
其中,Iq表示所述待查询图像,q表示卷积最大激活区域,I+表示所述正样本图像,I-表示所述负样本图像,m为常数,l(Iq,I+,I-)为目标相似性特征。
可选地,所述预设卷积网络的每一卷积层插入了1×1的滤波卷积层,且所述每一卷积层包含矫正激活函数。
可选地,所述采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征之后,所述方法还包括:
根据所述目标相似性特征,确定所述待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到所述N个汉明距离值,所述N为正整数;将所述N个汉明距离值中的最小值对应的图像作为目标图像。
本发明实施例第二方面提供了一种终端,包括:
获取单元,用于获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像;
第一训练单元,用于采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层;
映射单元,用于将所述图像特征三元组映射为目标哈希编码;
第二训练单元,用于采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
可选地,所述映射单元包括:
分割模块,用于将所述图像特征三元组中处于所述预设卷积网络的指定层特征分割成等长的Q个片段,所述Q为大于1的整数;
映射模块,用于通过所述预设卷积网络的全连接层分别将所述Q个片段映射成一维向量,得到所述Q个一维向量;
处理模块,用于通过sigmoid激活函数将所述Q个一维向量的值限制在0到1之间,得到所述Q个目标一维向量;
转换模块,用于按照如下公式将所述Q个目标一维向量的值转换成二进制的哈希编码,得到所述Q个哈希编码:
其中:ε为预设阈值,s为一维向量的任一位,H为哈希编码;
连接模块,用于将所述Q个哈希编码进行连接,得到所述目标哈希编码。
可选地,所述第二训练单元具体用于:
按照如下公式对所述目标哈希编码进行训练,得到目标相似性特征:
其中,Iq表示所述待查询图像,q表示卷积最大激活区域,I+表示所述正样本图像,I-表示所述负样本图像,m为常数,l(Iq,I+,I-)为目标相似性特征。
可选地,所述预设卷积网络的每一卷积层插入了1×1的滤波卷积层,且所述每一卷积层包含矫正激活函数。
可选地,所述终端还包括:
确定单元,用于在所述第二训练单元采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征之后,根据所述目标相似性特征,确定所述待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到所述N个汉明距离值,所述N为正整数;
所述确定单元还具体用于:
将所述N个汉明距离值中的最小值对应的图像作为目标图像。
实施本发明实施例,具有如下有益效果:
通过本发明实施例,获取三元组样本,其中,该三元组样本包括:待查询图像,正样本图像和负样本图像,采用预设卷积网络对三元组样本进行训练,得到图像特征三元组,其中,预设卷积网络至少包含四个卷积层和一个平均池化层,将图像特征三元组映射为目标哈希编码,采用预设三元组排序损失模型对目标哈希编码进行训练,得到目标相似性特征。如此,可降低相似性特征的复杂度,从而,提高图像检索效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像检索方法的第一实施例流程示意图;
图2是本发明实施例提供的一种图像检索方法的第二实施例流程示意图;
图3a是本发明实施例提供的一种终端的第一实施例结构示意图;
图3b是本发明实施例提供的图3a所描述的终端的映射单元的结构示意图;
图3c是本发明实施例提供的图3a所描述的终端的又一结构示意图;
图4是本发明实施例提供的一种终端的第二实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例所描述终端可以包括智能手机(如Android手机、iOS手机、WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备(MID,Mobile InternetDevices)或穿戴式设备等,上述仅是举例,而非穷举,包含但不限于上述终端。
深度训练作为机器训练研究中的一个新领域,这两年在图像识别、语音识别以及自然语言处理方面取得了巨大的成功。深度训练是通过构建多层神经网络模型来训练数据,可以训练出有用的特征,通过对大量样本训练可以得到很高的识别正确率。但是在同时需要识别多个属性时,已有的深度训练方法往往是通过将各个属性独立出来,为每一个属性训练一个模型,这无疑大大增加了复杂度。因此,如何将各个属性联系起来,通过设计一个模型即可对多个属性进行识别成为当下继续解决的问题。
本发明实施例采用了一种学习图像相似性的方法来检索图像。该方法通过对特征的学习建立三元组,并使用具有堆栈的共享子网的方法,对图像进行编码,通过三元组排序损失函数的学习,搜寻相似的图像。通过共享子网的方法学习统一化的图像特征表示,同时能够减少网络架构的参数;然后通过分割和编码模块产生编码;最后采用三元组排序损失函数学习得到好的相似性特征,查询得到相似的图像。其总体的学习流程如下:
(1)三元组的选取。包含查询图像,与查询图像相似的正样本图像,与查询图像不相关的负样本图像。其中正样本图像比负样本图像相比相似程度更接近原图像。
(2)建立共享子网。将三元组中的图像分别通过多元化的卷积池化层子网进行学习,获取图像特征表示,方便进行编码。
(3)分割和编码模块。对获取的图像表示进行编码,产生逐位的哈希编码。
(4)三元组排序损失函数模型。学习得到好的相似性特征,通过损失函数排序损失函数保留相似性特征。
请参阅图1,为本发明实施例提供的一种图像检索方法的第一实施例流程示意图。本实施例中所描述的图像检索方法,包括以下步骤:
101、获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像。
通常情况下,为了防止过拟合,可使用大量可变的图像是值得的。然而,可能的三元组数目会增加图像的数量,这就会造成计算的复杂性,因此,对所有子样本进行子优化。
对于排序损失函数来说,一个高效的三元组是至关重要的。本发明实施例采用如下采样方案去采样图像三元组。
假设一个图像集I,该图像集中成对的关联得分为ri,j=r(Ii,Ij),每个图像Ii属于一个类ci,图像Ii的评分ri反映了同一类中不同图像的关联性。总的图像评分ri定义为:
为了获取三元组,在选取相似图像时,选取与图像Ii同一类中的图像。不相似的图像的选取有两种方案:
(1)在不同类中选取;
(2)在同一类中选取关联度比图像Ii和更低的样本图像。即对任意的三元组需要满足条件如下:
其中,Tr是一个阈值参数,该阈值参数可由系统默认或者用户自行设置。表示图像与图像Ii的相似程度比图像高。
如此,尽管对于同一个类图像中可视化和语义是大体的一致,但是,仍旧存在很大的可变性,尤其是当这个类的语义范围很大的时候。因而,在选取三元组时,尽量选择在同类中选择相似的,在其他类中选择不相似的样本。
102、采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层。
通常情况下,会对待查询图像Iq进行一个单独的子网R进行特征训练,然后,将正样本图像和负样本图像采用一个共享的子网P进行训练,然后,同样能够得到一个特征向量的三元组,但是,这加大了计算量,并且网络架构的参数也增加了很多。
因此,本发明实施例选择对三元组的图像共用同一个堆栈卷积子网的方法,不仅能够训练统一化的图像特征表示,同时能减少整个网络架构的参数。
通过共享子网,三元组样本(Iq,I+,I-)可被编译成一个图像特征三元组(xq,x+,x-),其中,图像特征三元组的三个向量具有相同的维度。在三元组样本中,三张图像共同使用一个卷积网络,共同使用了四个卷积层和一个平均池化层的参数,其中,前三个卷积层后都采用最大池化,最后一层采用平均池化。
可选地,在上述卷积网络的网络架构中,在每个卷积层中额外插入了1×1的滤波卷积层对输入通道进行线性转变,随后进行非线性矫正,其中,所有的卷积层都使用矫正激活函数,最后,使用平均池化代替全连接层作为子网的输出层。子网架构参数见表1:
表1子网架构表
类型 | 滤波器尺寸/步数 | 输出尺寸 |
卷积层 | 11*11/4 | 96*54*54 |
卷积层 | 1*1/1 | 96*54*54 |
最大池化 | 3*3/2 | 96*27*27 |
卷积层 | 5*5/2 | 256*27*27 |
卷积层 | 1*1/1 | 256*27*27 |
最大池化 | 3*3/2 | 256*13*13 |
卷积层 | 3*3/1 | 384*13*13 |
卷积层 | 1*1/1 | 384*13*13 |
最大池化 | 3*3/2 | 384*6*6 |
卷积层 | 3*3/1 | 1024*6*6 |
卷积层 | 1*1/1 | 50×q bits*6*6 |
平均池化 | 6*6/1 | 50×q bits*1*1 |
103、将所述图像特征三元组映射为目标哈希编码。
可选地,上述步骤103中,将所述图像特征三元组映射为目标哈希编码,可包括如下步骤:
31)、将所述图像特征三元组中处于所述预设卷积网络的指定层特征分割成等长的Q个片段,所述Q为大于1的整数;
32)、通过所述预设卷积网络的全连接层分别将所述Q个片段映射成一维向量,得到所述Q个一维向量;
33)、通过sigmoid激活函数将所述Q个一维向量的值限制在0到1之间,得到所述Q个目标一维向量;
34)、按照如下公式将所述Q个目标一维向量的值转换成二进制的哈希编码,得到所述Q个哈希编码:
其中:ε为预设阈值,s为一维向量的任一位,H为哈希编码;
35)、将所述Q个哈希编码进行连接,得到所述目标哈希编码。
具体地,通过共享卷积子网获取中间层图像特征(即指定层特征),采用分割与编码模块将图像特征映射为近似的哈希编码。每个编码被分成设定的比特位,然后共享子网的输出被分割为相应倍数的比特位。分割与编码模块的具体过程如下:
(1)将通过共享卷积子网的中间层特征分割成等长的Q个片段;
(2)通过全连接层将每片映射成一个一维向量,使用一个sigmoid激活函数(记作s),将输出的一维向量的值限制在0到1之间;
(3)选取一个分段阈值函数将输出的值转换成二进制的哈希编码,其分段阈值函数H表示为:
其中:ε为阈值(通过训练得到的合适的值)。
(4)将Q个片段的输出的哈希编码连接成一个Q比特位的近似哈希编码。
104、采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
可选地,上述步骤104中,采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征,包括:
按照如下公式对所述目标哈希编码进行训练,得到目标相似性特征:
其中,Iq表示所述待查询图像,q表示卷积最大激活区域,I+表示所述正样本图像,I-表示所述负样本图像,m为常数。
通常情况下,一个高效的图像相似性度量是检索相似图像的核心,大多数存在的有监督的哈希方法中,在成对的图像中采用成对的标签表示语义上的相似或不相似,其损失函数同样被设计去保留成对图像的相似性。本发明实施例采用三元组样本(包含待查询图像,正样本图像,负样本图像)的形式去获取相关的相似性。相比成对的图像,三元组的形式更容易获取关联图像的相似性。
本发明实施例中根据图像嵌入空间的汉明距离定义图像P和Q的相似度为:
上述f表示将图像映射到欧氏空间中的一个点的图像嵌入函数,D表示汉明距离。一个三元组样本包含一个查询图像,一个相似的正样本图像,一个负样本图像,基于三元组样本的相似度比二元组样本的相似度更加容易计算。其损失函数为:
其中,Iq是待查询图像,其卷积最大激活区域用q描述;I+是正样本图像,I-是负样本图像,m为一个控制边缘的标量,l(Iq,I+,I-)为目标相似性特征。
可以看出,通过本发明实施例,获取三元组样本,其中,该三元组样本包括:待查询图像,正样本图像和负样本图像,采用预设卷积网络对三元组样本进行训练,得到图像特征三元组,其中,预设卷积网络至少包含四个卷积层和一个平均池化层,将图像特征三元组映射为目标哈希编码,采用预设三元组排序损失模型对目标哈希编码进行训练,得到目标相似性特征。如此,可降低相似性特征的复杂度,从而,提高图像检索效率。
与上述一致地,请参阅图2,为本发明实施例提供的一种图像检索方法的第二实施例流程示意图。本实施例中所描述的图像检索方法,包括以下步骤:
201、获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像。
202、采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层。
203、将所述图像特征三元组映射为目标哈希编码。
204、采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
205、根据所述目标相似性特征,确定所述待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到所述N个汉明距离值,所述N为正整数。
其中,可对预设图像库中的N张图像中的每一图像也进行特征提取,得到N组特征,进一步地,确定该目标相似度特征与该N组特征之间的汉明距离,得到N个汉明距离值。
206、将所述N个汉明距离值中的最小值对应的图像作为目标图像。
本发明实施例中,可将上述N个汉明距离值中的最小值对应的图像作为目标图像。
可以看出,通过本发明实施例,获取三元组样本,其中,该三元组样本包括:待查询图像,正样本图像和负样本图像,采用预设卷积网络对三元组样本进行训练,得到图像特征三元组,其中,预设卷积网络至少包含四个卷积层和一个平均池化层,将图像特征三元组映射为目标哈希编码,采用预设三元组排序损失模型对目标哈希编码进行训练,得到目标相似性特征,并可根据目标相似性特征确定待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到N个汉明距离值,N为正整数,将N个汉明距离值中的最小值对应的图像作为目标图像。如此,可降低相似性特征的复杂度,从而,提高图像检索效率。
与上述一致地,以下为实施上述图像检索方法的装置,具体如下:
请参阅图3a,为本发明实施例提供的一种终端的第一实施例结构示意图。本实施例中所描述的终端,包括:获取单元301、第一训练单元302、映射单元303和第二训练单元304,具体如下:
获取单元301,用于获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像;
第一训练单元302,用于采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层;
映射单元303,用于将所述图像特征三元组映射为目标哈希编码;
第二训练单元304,用于采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
可选地,如图3b所示,图3b为图3a所描述的终端的映射单元303的具体细化结构,所述映射单元303可包括:分割模块3031、映射模块3032、处理模块3033、转换模块3034和连接模块3035,具体如下:
分割模块3031,用于将所述图像特征三元组中处于所述预设卷积网络的指定层特征分割成等长的Q个片段,所述Q为大于1的整数;
映射模块3032,用于通过所述预设卷积网络的全连接层分别将所述Q个片段映射成一维向量,得到所述Q个一维向量;
处理模块3033,用于通过sigmoid激活函数将所述Q个一维向量的值限制在0到1之间,得到所述Q个目标一维向量;
转换模块3034,用于按照如下公式将所述Q个目标一维向量的值转换成二进制的哈希编码,得到所述Q个哈希编码:
其中:ε为预设阈值,s为一维向量的任一位,H为哈希编码;
连接模块3035,用于将所述Q个哈希编码进行连接,得到所述目标哈希编码。
可选地,所述第二训练单元304具体用于:
按照如下公式对所述目标哈希编码进行训练,得到目标相似性特征:
其中,Iq表示所述待查询图像,q表示卷积最大激活区域,I+表示所述正样本图像,I-表示所述负样本图像,m为常数,l(Iq,I+,I-)为目标相似性特征。
可选地,所述预设卷积网络的每一卷积层插入了1×1的滤波卷积层,且所述每一卷积层包含矫正激活函数。
可选地,如图3c所示,图3c为图3a所描述的终端的变型结构,其还包括:确定单元305,具体如下:
确定单元305,用于在所述第二训练单元304采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征之后,根据所述目标相似性特征,确定所述待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到所述N个汉明距离值,所述N为正整数;
所述确定单元305还具体用于:
将所述N个汉明距离值中的最小值对应的图像作为目标图像。
可以看出通过本发明实施例所描述的终端,可获取三元组样本,其中,该三元组样本包括:待查询图像,正样本图像和负样本图像,采用预设卷积网络对三元组样本进行训练,得到图像特征三元组,其中,预设卷积网络至少包含四个卷积层和一个平均池化层,将图像特征三元组映射为目标哈希编码,采用预设三元组排序损失模型对目标哈希编码进行训练,得到目标相似性特征。如此,可降低相似性特征的复杂度,从而,提高图像检索效率。
与上述一致地,请参阅图4,为本发明实施例提供的一种终端的第二实施例结构示意图。本实施例中所描述的终端,包括:至少一个输入设备1000;至少一个输出设备2000;至少一个处理器3000,例如CPU;和存储器4000,上述输入设备1000、输出设备2000、处理器3000和存储器4000通过总线5000连接。
其中,上述输入设备1000具体可为触控面板、物理按键或者鼠标。
上述输出设备2000具体可为显示屏。
上述存储器4000可以是高速RAM存储器,也可为非易失存储器(non-volatilememory),例如磁盘存储器。上述存储器4000用于存储一组程序代码,上述输入设备1000、输出设备2000和处理器3000用于调用存储器4000中存储的程序代码,执行如下操作:
上述处理器3000,用于:
获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像;
采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层;
将所述图像特征三元组映射为目标哈希编码;
采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
可选地,上述处理器3000将所述图像特征三元组映射为目标哈希编码,包括:
将所述图像特征三元组中处于所述预设卷积网络的指定层特征分割成等长的Q个片段,所述Q为大于1的整数;
通过所述预设卷积网络的全连接层分别将所述Q个片段映射成一维向量,得到所述Q个一维向量;
通过sigmoid激活函数将所述Q个一维向量的值限制在0到1之间,得到所述Q个目标一维向量;
按照如下公式将所述Q个目标一维向量的值转换成二进制的哈希编码,得到所述Q个哈希编码:
其中:ε为预设阈值,s为一维向量的任一位,H为哈希编码;
将所述Q个哈希编码进行连接,得到所述目标哈希编码。
可选地,上述处理器3000采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征,包括:
按照如下公式对所述目标哈希编码进行训练,得到目标相似性特征:
其中,Iq表示所述待查询图像,q表示卷积最大激活区域,I+表示所述正样本图像,I-表示所述负样本图像,m为常数,l(Iq,I+,I-)为目标相似性特征。
可选地,所述预设卷积网络的每一卷积层插入了1×1的滤波卷积层,且所述每一卷积层包含矫正激活函数。
可选地,上述处理器3000采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征之后,还具体用于:
根据所述目标相似性特征,确定所述待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到所述N个汉明距离值,所述N为正整数;
将所述N个汉明距离值中的最小值对应的图像作为目标图像。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任何一种图像检索方法的部分或全部步骤。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种图像检索方法,其特征在于,包括:
获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像;
采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层;
将所述图像特征三元组映射为目标哈希编码;
采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
2.根据权利要求1所述的方法,其特征在于,所述将所述图像特征三元组映射为目标哈希编码,包括:
将所述图像特征三元组中处于所述预设卷积网络的指定层特征分割成等长的Q个片段,所述Q为大于1的整数;
通过所述预设卷积网络的全连接层分别将所述Q个片段映射成一维向量,得到所述Q个一维向量;
通过sigmoid激活函数将所述Q个一维向量的值限制在0到1之间,得到所述Q个目标一维向量;
按照如下公式将所述Q个目标一维向量的值转换成二进制的哈希编码,得到所述Q个哈希编码:
其中:ε为预设阈值,s为一维向量的任一位,H为哈希编码;
将所述Q个哈希编码进行连接,得到所述目标哈希编码。
3.根据权利要求1或2任一项所述的方法,其特征在于,所述采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征,包括:
按照如下公式对所述目标哈希编码进行训练,得到目标相似性特征:
rI,I+≥rI,I-
其中,Iq表示所述待查询图像,q表示卷积最大激活区域,I+表示所述正样本图像,I-表示所述负样本图像,m为常数,l(Iq,I+,I-)为目标相似性特征。
4.根据权利要求1或2任一项所述的方法,其特征在于,所述预设卷积网络的每一卷积层插入了1×1的滤波卷积层,且所述每一卷积层包含矫正激活函数。
5.根据权利要求1所述的方法,其特征在于,所述采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征之后,所述方法还包括:
根据所述目标相似性特征,确定所述待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到所述N个汉明距离值,所述N为正整数;
将所述N个汉明距离值中的最小值对应的图像作为目标图像。
6.一种终端,其特征在于,包括:
获取单元,用于获取三元组样本,其中,所述三元组样本包括:待查询图像,正样本图像和负样本图像;
第一训练单元,用于采用预设卷积网络对所述三元组样本进行训练,得到图像特征三元组,其中,所述预设卷积网络至少包含四个卷积层和一个平均池化层;
映射单元,用于将所述图像特征三元组映射为目标哈希编码;
第二训练单元,用于采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征。
7.根据权利要求6所述的终端,其特征在于,所述映射单元包括:
分割模块,用于将所述图像特征三元组中处于所述预设卷积网络的指定层特征分割成等长的Q个片段,所述Q为大于1的整数;
映射模块,用于通过所述预设卷积网络的全连接层分别将所述Q个片段映射成一维向量,得到所述Q个一维向量;
处理模块,用于通过sigmoid激活函数将所述Q个一维向量的值限制在0到1之间,得到所述Q个目标一维向量;
转换模块,用于按照如下公式将所述Q个目标一维向量的值转换成二进制的哈希编码,得到所述Q个哈希编码:
其中:ε为预设阈值,s为一维向量的任一位,H为哈希编码;
连接模块,用于将所述Q个哈希编码进行连接,得到所述目标哈希编码。
8.根据权利要求6或7任一项所述的终端,其特征在于,所述第二训练单元具体用于:
按照如下公式对所述目标哈希编码进行训练,得到目标相似性特征:
rI,I+≥rI,I-
其中,Iq表示所述待查询图像,q表示卷积最大激活区域,I+表示所述正样本图像,I-表示所述负样本图像,m为常数,l(Iq,I+,I-)为目标相似性特征。
9.根据权利要求6或7任一项所述的终端,其特征在于,所述预设卷积网络的每一卷积层插入了1×1的滤波卷积层,且所述每一卷积层包含矫正激活函数。
10.根据权利要求6或7任一项所述的终端,其特征在于,所述终端还包括:
确定单元,用于在所述第二训练单元采用预设三元组排序损失模型对所述目标哈希编码进行训练,得到目标相似性特征之后,根据所述目标相似性特征,确定所述待查询图像与预设图像库中的N张图像中的每一图像之间的汉明距离,得到所述N个汉明距离值,所述N为正整数;
所述确定单元还具体用于:
将所述N个汉明距离值中的最小值对应的图像作为目标图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169213.2A CN106649688A (zh) | 2016-12-16 | 2016-12-16 | 一种图像检索方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169213.2A CN106649688A (zh) | 2016-12-16 | 2016-12-16 | 一种图像检索方法及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649688A true CN106649688A (zh) | 2017-05-10 |
Family
ID=58822692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611169213.2A Pending CN106649688A (zh) | 2016-12-16 | 2016-12-16 | 一种图像检索方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649688A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239535A (zh) * | 2017-05-31 | 2017-10-10 | 北京小米移动软件有限公司 | 相似图片检索方法及装置 |
CN107291813A (zh) * | 2017-05-19 | 2017-10-24 | 南京邮电大学 | 基于语义分割场景的示例搜索方法 |
CN108197326A (zh) * | 2018-02-06 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 一种车辆检索方法及装置、电子设备、存储介质 |
CN108848270A (zh) * | 2018-06-29 | 2018-11-20 | 维沃移动通信(深圳)有限公司 | 一种截屏图像的处理方法和移动终端 |
CN109522436A (zh) * | 2018-11-29 | 2019-03-26 | 厦门美图之家科技有限公司 | 相似图像查找方法及装置 |
CN109726726A (zh) * | 2017-10-27 | 2019-05-07 | 北京邮电大学 | 视频中的事件检测方法及装置 |
CN110019889A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置 |
CN110059206A (zh) * | 2019-03-29 | 2019-07-26 | 银江股份有限公司 | 一种基于深度表征学习的大规模哈希图像检索方法 |
CN110188225A (zh) * | 2019-04-04 | 2019-08-30 | 吉林大学 | 一种基于排序学习和多元损失的图像检索方法 |
CN110363049A (zh) * | 2018-04-10 | 2019-10-22 | 阿里巴巴集团控股有限公司 | 图形元素检测识别和类别确定的方法及装置 |
CN110413812A (zh) * | 2019-08-06 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 神经网络模型的训练方法、装置、电子设备及存储介质 |
CN110750672A (zh) * | 2019-09-18 | 2020-02-04 | 吉林大学 | 基于深度度量学习和结构分布学习损失的图像检索方法 |
CN110858220A (zh) * | 2018-08-10 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 确定图像特征的方法、装置、存储介质及处理器 |
CN112069860A (zh) * | 2019-06-10 | 2020-12-11 | 联想新视界(北京)科技有限公司 | 一种基于肢体姿势图像识别奶牛的方法和装置 |
CN112069857A (zh) * | 2019-06-10 | 2020-12-11 | 联想新视界(天津)科技有限公司 | 一种识别奶牛花纹的方法和装置 |
CN113033580A (zh) * | 2021-03-31 | 2021-06-25 | 北京有竹居网络技术有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN116383422A (zh) * | 2023-04-07 | 2023-07-04 | 四川大学 | 一种基于锚点的无监督跨模态哈希检索方法 |
CN117493603A (zh) * | 2023-11-29 | 2024-02-02 | 安庆市长三角未来产业研究院 | 一种用于图像检索的多通道图像哈希方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
-
2016
- 2016-12-16 CN CN201611169213.2A patent/CN106649688A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834748A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种利用基于深度语义排序哈希编码的图像检索方法 |
Non-Patent Citations (2)
Title |
---|
LAI H ,ET AL: "Simultaneous Feature Learning and Hash Coding with Deep Neural N", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
彭天强 等: "基于深度卷积神经网络和二进制哈希学习的图像检索方法", 《电子与信息学报》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291813A (zh) * | 2017-05-19 | 2017-10-24 | 南京邮电大学 | 基于语义分割场景的示例搜索方法 |
CN107291813B (zh) * | 2017-05-19 | 2021-01-01 | 南京邮电大学 | 基于语义分割场景的示例搜索方法 |
CN107239535A (zh) * | 2017-05-31 | 2017-10-10 | 北京小米移动软件有限公司 | 相似图片检索方法及装置 |
CN109726726A (zh) * | 2017-10-27 | 2019-05-07 | 北京邮电大学 | 视频中的事件检测方法及装置 |
CN109726726B (zh) * | 2017-10-27 | 2023-06-20 | 北京邮电大学 | 视频中的事件检测方法及装置 |
CN110019889A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置 |
CN108197326A (zh) * | 2018-02-06 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 一种车辆检索方法及装置、电子设备、存储介质 |
CN110363049B (zh) * | 2018-04-10 | 2024-01-12 | 阿里巴巴集团控股有限公司 | 图形元素检测识别和类别确定的方法及装置 |
CN110363049A (zh) * | 2018-04-10 | 2019-10-22 | 阿里巴巴集团控股有限公司 | 图形元素检测识别和类别确定的方法及装置 |
CN108848270A (zh) * | 2018-06-29 | 2018-11-20 | 维沃移动通信(深圳)有限公司 | 一种截屏图像的处理方法和移动终端 |
CN110858220A (zh) * | 2018-08-10 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 确定图像特征的方法、装置、存储介质及处理器 |
CN109522436A (zh) * | 2018-11-29 | 2019-03-26 | 厦门美图之家科技有限公司 | 相似图像查找方法及装置 |
CN110059206A (zh) * | 2019-03-29 | 2019-07-26 | 银江股份有限公司 | 一种基于深度表征学习的大规模哈希图像检索方法 |
CN110188225A (zh) * | 2019-04-04 | 2019-08-30 | 吉林大学 | 一种基于排序学习和多元损失的图像检索方法 |
CN110188225B (zh) * | 2019-04-04 | 2022-05-31 | 吉林大学 | 一种基于排序学习和多元损失的图像检索方法 |
CN112069857A (zh) * | 2019-06-10 | 2020-12-11 | 联想新视界(天津)科技有限公司 | 一种识别奶牛花纹的方法和装置 |
CN112069860A (zh) * | 2019-06-10 | 2020-12-11 | 联想新视界(北京)科技有限公司 | 一种基于肢体姿势图像识别奶牛的方法和装置 |
CN110413812B (zh) * | 2019-08-06 | 2022-04-26 | 北京字节跳动网络技术有限公司 | 神经网络模型的训练方法、装置、电子设备及存储介质 |
CN110413812A (zh) * | 2019-08-06 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 神经网络模型的训练方法、装置、电子设备及存储介质 |
CN110750672A (zh) * | 2019-09-18 | 2020-02-04 | 吉林大学 | 基于深度度量学习和结构分布学习损失的图像检索方法 |
CN110750672B (zh) * | 2019-09-18 | 2023-06-16 | 吉林大学 | 基于深度度量学习和结构分布学习损失的图像检索方法 |
CN113033580A (zh) * | 2021-03-31 | 2021-06-25 | 北京有竹居网络技术有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN113033580B (zh) * | 2021-03-31 | 2024-02-02 | 北京有竹居网络技术有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN116383422A (zh) * | 2023-04-07 | 2023-07-04 | 四川大学 | 一种基于锚点的无监督跨模态哈希检索方法 |
CN116383422B (zh) * | 2023-04-07 | 2023-11-03 | 四川大学 | 一种基于锚点的无监督跨模态哈希检索方法 |
CN117493603A (zh) * | 2023-11-29 | 2024-02-02 | 安庆市长三角未来产业研究院 | 一种用于图像检索的多通道图像哈希方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649688A (zh) | 一种图像检索方法及终端 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110647629B (zh) | 一种多粒度答案排序的多文档机器阅读理解方法 | |
US10503775B1 (en) | Composition aware image querying | |
CN104317834B (zh) | 一种基于深度神经网络的跨媒体排序方法 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
US9870516B2 (en) | Hand-drawn sketch recognition | |
WO2018125932A1 (en) | Clustering search results based on image composition | |
CN109308319B (zh) | 文本分类方法、文本分类装置和计算机可读存储介质 | |
CN106547871A (zh) | 基于神经网络的搜索结果的召回方法和装置 | |
CN109635296A (zh) | 新词挖掘方法、装置计算机设备和存储介质 | |
CN103020265B (zh) | 图像检索的方法和系统 | |
CN111898374B (zh) | 文本识别方法、装置、存储介质和电子设备 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
US20030212663A1 (en) | Neural network feedback for enhancing text search | |
CN109711465A (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN110781302A (zh) | 文本中事件角色的处理方法、装置、设备及存储介质 | |
CN110222328A (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN113282834A (zh) | 基于移动互联网数据深度挖掘的网页搜索智能排序方法、系统和计算机存储介质 | |
CN112307190A (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN109359198A (zh) | 一种文本分类方法及装置 | |
CA3061826A1 (en) | Computerized methods of data compression and analysis | |
CN104750762A (zh) | 一种信息检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |