CN104094255A - 用于搜索图像的方法和装置以及用于执行该方法的计算机可读记录介质 - Google Patents
用于搜索图像的方法和装置以及用于执行该方法的计算机可读记录介质 Download PDFInfo
- Publication number
- CN104094255A CN104094255A CN201280067115.1A CN201280067115A CN104094255A CN 104094255 A CN104094255 A CN 104094255A CN 201280067115 A CN201280067115 A CN 201280067115A CN 104094255 A CN104094255 A CN 104094255A
- Authority
- CN
- China
- Prior art keywords
- word
- image
- unit
- binary code
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 38
- 238000013459 approach Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000005303 weighing Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明内容涉及用于搜索图像的方法和装置,且涉及用于执行该方法的计算机可读记录介质。本公开内容的用于搜索图像的装置获取输入图像的特征;并且获取分别对应于特征的单词和靠近对应于特征的单词的邻近单词。在单词被指派给可视特征空间中所包括的多个单词单元中的第一单词单元时,邻近单词被指派给靠近第一单词单元的至少一个第二单词单元,其中所述多个单词单元被指派给不同的单词,且在离一单词预定距离内的至少一个单词被指派为邻近单词。该装置还被配置为基于与对应于单词的第一组图像相关联的信息以及与对应于邻近单词的第二组图像相关联的信息搜索与输入图像相同或相似的图像,关于第一组和第二组图像的信息被存储在数据库中。
Description
技术领域
本公开内容涉及图像搜索方法和装置以及非暂态计算机可读记录介质,其用于通过以下增强图像搜索的精度:在输入图像的特征对应于特定单词或特定二进制码时,不仅从对应于数据库中的特定单词或特定二进制码的第一组图像、而且也从对应于邻近单词或邻近二进制码(该邻近单词或邻近二进制码靠近对应于特定单词或特定二进制码的第一组图像)的第二组图像,搜索具有与输入图像的特征相同或相似的特征的图像。
背景技术
在文档搜索中,文档可以被表示为从特定词表中所选择的单词的频率。基于关于这种频率的比较衡量在文档之间的相似性。
类似地,在图像搜索中,图像被表示成从特定的视觉词表选择的视觉单词的频率。基于关于这种频率的比较衡量在图像之间的相似性。
作为示例,图像1、2和3中的每一个具有三个特征,以使得图像1的特征分别对应于单词“a”、“b”、“c”,图像2的特征分别对应于单词“a”、“c”、“d”,且图像3的特征分别对应于单词“a”、“d”、“e”。在这种情况中,在图像1和图像2之间的相似性频率是2,且在图像1和图像3之间的相似性频率是1。
然而,不同于文本文档,由于噪声、拍摄角度等等,图像的视觉单词频繁地、微妙地改变。即,应被表示成单词“a”的特征例如可以被表示成单词“e”,该单词“e”靠近单词“a”。在这种情况中,仅从对应于数据库中的单词“e”的标识的图像中搜索具有相同或相似的特征的至少一个图像。因而,存在降低搜索精度的问题。
例如,在Josef Sivic和Andrew Zisserman在2003年“IEEE InternationalConference on Computer Vision(IEEE计算机视觉国际会议)”发表的标题为“VideoGoogle:A Text Retrieval Approach to Object Matching in Videos(视频谷歌:视频中的对象匹配的文本检索方法)”的论文中公开的、使用视觉单词搜索图像的技术,具有以上所描述的问题。
发明内容
技术问题
本公开内容的目标是解决以上所描述的问题。
另外,本公开内容的另一目标是增强图像搜索的精度。可以通过以下实现这种目标:在输入图像的特征分别对应于特定单词或特定二进制码时,不仅从对应于数据库中的特定单词或特定二进制码的第一组图像、而且也从对应于靠近第一组图像的单词或二进制码的第二组图像搜索具有与输入图像的特征相同或相似的特征的图像。
技术解决方案
用于实现以上目标的本公开内容的代表性配置如下所示。
根据本公开内容的一个方面,一种图像搜索方法包括:(a)由图像搜索装置获取输入图像的特征;以及(b)由图像搜索装置获取相应特征所对应的单词和靠近特征所对应的相应单词的邻近单词。在可视特征空间中所包括的多个单词单元中的第一单词单元被指派给一个单词时,邻近单词是被指派给所述多个单词单元的至少一个第二单词单元的单词,第二单词单元靠近被指派给该单词的第一单词单元。所述多个单词单元被指派给不同的单词,并且在离该单词的预定距离内的至少一个单词被指定为邻近单词。该方法还包括(c)基于与对应于单词的第一组图像相关联的信息以及与对应于邻近单词的第二组图像相关联的信息,由图像搜索装置搜索与输入图像相同或相似的图像,与第一组和第二组图像相关联的信息被存储在数据库中。
根据本公开内容的一些其他方面,提供一种图像搜索方法,其包括:(a)由图像搜索装置获取输入图像的特征;以及(b)由图像搜索装置获取相应特征分别对应于的二进制代码。该方法还包括(c)基于与对应于二进制代码的第一组图像相关联的信息以及关于对应于邻近二进制代码(该邻近二进制代码靠近对应于第一组图像的二进制代码且包括关于到该二进制码的距离的信息)的第二组图像的信息,由图像搜索装置搜索与输入图像相同或相似的图像,关于第一组和第二组图像的信息被存储在数据库中。在可视特征空间中的多个单词单元中的第一单词单元被指派给二进制代码时,邻近二进制代码被指派给所述多个单词单元中的至少一个的第二单词单元,第二单词单元靠近第一单词单元且包括关于到第一单词单元的距离的信息。所述多个单词单元可以被指派给不同的二进制代码,并且在离该单词的预定距离内的至少一个单词可以被指定为邻近单词。
根据本公开内容的更进一步的方面,提供一种图像搜索方法,其包括:(a)由图像搜索装置获取输入图像的特征;(b)由图像搜索装置获取输入图像的相应特征的特征描述符;以及(c)由图像搜索装置把输入图像的特征的特征描述符映射到二进制代码。该方法还包括(d)基于与对应于二进制代码的第一组图像相关联的信息和关于对应于邻近二进制代码(其靠近第一组图像的二进制码,且包括指示邻近二进制代码靠近第一组图像的二进制代码的距离信息)的第二组图像的信息,由图像搜索装置搜索与输入图像相同或相似的图像。关于第一组和第二组图像的信息可以被存储在数据库中。在离二进制代码的预定距离内的至少一个二进制代码可以被指定为邻近二进制代码。
根据本公开内容的更进一步的方面,提供一种图像搜索装置,其包括:特征获取单元,其用于获取输入图像的特征;以及单词和邻近单词获取单元,其用于获取特征分别对应的所述单词以及靠近所述单词的邻近单词。在此,在可视特征空间中所包括的多个单词单元中的第一单词单元被指派给一单词时,邻近单词是被指派给所述多个单词单元的至少一个第二单词单元的单词,该第二单词单元靠近单词被指派给的第一单词单元。所述多个单词单元被指派给不同的单词,且在离该单词预定距离内的至少一个单词被指定为邻近单词。该装置还包括:搜索单元,其基于与对应于单词的第一组图像相关联的信息以及与对应于邻近单词的第二组图像相关联的信息,搜索与输入图像相同或相似的图像,关于第一组和第二组图像的信息被存储在数据库中。
根据本公开内容的更进一步的方面,提供一种图像搜索装置,其包括:特征点获取单元,其用于获取输入图像的特征点;以及二进制代码获取单元,其用于获取相应特征所对应的二进制代码。该装置还包括:搜索单元,其基于与对应于二进制代码的第一组图像相关联的信息以及与对应于靠近二进制代码的邻近二进制代码(且其包括关于到该二进制代码的距离的信息)的第二组图像相关联的信息搜索与输入图像相同或相似的图像,关于第一组和第二组图像的信息被存储在数据库中。在可视特征空间中的多个单词单元中的第一单词单元被指派给二进制代码时,邻近二进制代码是被指派给所述多个单词单元中的至少一个第二单词单元的代码,第二单词单元靠近第一单词单元且包括关于到第一单词单元的距离的信息。所述多个单词单元被指派给不同的二进制代码,并且,在离二进制代码的预定距离内的至少一个二进制代码可以被指定为邻近二进制代码。
根据本公开内容的更进一步的方面,提供一种图像搜索装置,其包括:特征获取单元,其用于获取输入图像的特征;特征描述符获取单元,其用于获取用于输入图像的相应特征的特征描述符;以及特征描述符-二进制代码映射单元,其用于把输入图像的特征的特征描述符映射到二进制代码。该装置还包括:搜索单元,其基于与对应于二进制代码的第一组图像相关联的信息以及与对应于邻近二进制代码(其靠近二进制代码,且包括指示邻近二进制代码靠近二进制代码的信息)的第二组图像相关联的信息,搜索与输入图像相同或相似的图像。关于第一组和第二组图像的信息可以被存储在数据库中。在离二进制代码的预定距离内的至少一个二进制代码可以被指定为邻近二进制代码。
另外,还提供非暂态计算机可读记录介质,其用于记录计算机程序,该计算机程序用于执行用于实现本公开内容的各种实施方式的以上所描述的方法。
有益效果
根据本公开内容,在输入图像的特征分别对应于特定单词或特定二进制代码时,不仅从与数据库中的特定单词或特定二进制码相关联的第一组图像、而且也从与邻近单词或邻近二进制代码(其靠近与特定单词或特定二进制码的相关联的第一组图像)相关联的第二组图像,搜索具有与输入图像的特征的相同或相似的特征的图像。因而,即使输入图像受到噪声或拍摄角度影响,仍然可能精确地搜索图像。
附图说明
图1是根据本公开内容的一种实施方式的图像搜索系统的框图。
图2到图4是表示通过服务器使用数据库中的图像来在数据库中构建索引和图像信息的示意图。
图5是根据本公开内容的另一实施方式的带有索引和图像信息的数据库结构的示意图。
图6是根据本公开内容的一种实施方式的服务器的框图。
图7是根据本公开内容的一种实施方式的单词-邻近单词查找表的示意图。
图8是根据本公开内容的另一实施方式的服务器的框图。
图9是根据本公开内容的又一种实施方式的服务器的框图。
图10是根据本公开内容的一种实施方式的搜索单元的框图。
具体实施方式
在本公开内容的下列详细描述中,对附图进行引用,作为阐释,附图示出其中可以实现本公开内容的特定实施方式。足够详细地描述这些实施方式以便允许本领域中的技术人员实现本公开内容。应理解,本公开内容的各种实施方式尽管不同,但并不必定相互排斥。例如,在此结合一种实施方式描述的特定的特征、结构和特性,在不偏离本公开内容的精神和范围的前提下,可以在其他实施方式内实现。另外,应理解,在不偏离本公开内容的精神和范围的前提下,可以修改在每一公开的实施方式内的个体元素的位置或排列。因此,不应以限制性的意义理解下列的详细描述,且本公开内容的范围由所附权利要求以及等效于权利要求所主张的范围的完全范围界定、适当地解释。附图中,类似的标号是指相同的或相似的功能。
在下文中,将参照附图详细描述本公开内容的各种实施方式,使得本领域中的技术人员可以容易地实现本公开内容。
图1是根据本公开内容的一种实施方式的图像搜索系统的框图。
如图1中所示出,根据本公开内容的图像搜索系统100可以包括终端110、通信网络120、服务器130和数据库140
下面将描述图1中所示出的每个框的细节。
首先,终端100可以是数字设备,该数字设备包括这样的功能:允许用户经由通信网络120连接到服务器130并与之通信,且输入用于搜索的图像。终端110可以是个人计算机(例如,台式计算机、笔记本计算机等等)、工作站、PDA、上网平板、蜂窝式电话等等。另外,尽管图1中阐释了仅一个终端110,但可以经由通信网络120连接多个用户终端。
另外,通信网络120可以采用任何通信方案,例如有线或无线网络。可以采用各种通信网络,例如局域网(LAN)、城域网(MAN)和广域网(WAN)。在此提及的通信网络100也可以与万维网(WWW)通信。
数据库140可以在其中存储多个图像。数据库140可以分离地存储图像的索引和关于经索引图像中的每一个的图像信息。
因而,在某些实施方式中,数据库140可以把可以不指示与在各特征之间的距离相关联的信息的不同的一维单词(或一维数字)存储为索引。进一步,例如,关于图像的图像信息可以包括关于图像的特征的信息。可以理解,被分组成特定的一维单词的图像的特征可以包括它们是在预定距离范围内的关联距离信息,同时,被分组成与该特定单词不同的一维单词的图像的特征可以包括它们具有大于预定范围的距离的关联距离信息。
在数据库140中被存储为索引的一维单词(或一维数字)可以包括到另一单词的距离的关联信息。例如,在数据库140中的索引是一维单词时,在它们的序列中邻近的单词(例如,A和B、B和C等等)可以指示,相比于在它们的序列中不邻近的单词(例如,A和C、A和D等等),它们更加相互接近的距离信息。进一步,在数据库140中的索引是一维数字时,在它们的序列中邻近的数字(例如,100和101、101和102等等)可以指示,相比于在它们的序列中不邻近的数字(例如,100和102、101和103等等),它们更加相互接近的距离信息。
根据另一实施方式,数据库140可以具有二进制码作为索引,其包括对应于海明距离(hamming distance)的距离信息。例如,图像的图像信息可以包括关于图像的特征的信息。被分组为对应于一个m维(位)二进制代码图像的特征可以指示各特征之间的距离是在预定范围内。不同的m维二进制码可以被用来确定在不同的预定距离范围内的距离,其中的每一个都覆盖对应于各个m维二进制码的各特征之间的距离。
服务器130从数据库140中的多个图像搜索与输入图像相同或相似的图像。
根据一种实施方式,服务器130可以提取关于数据库140中所存储的多个图像中的每一个的特征的信息。可能已经提取所述多个相应图像的特征并将其存储在数据库140中。在这种情况中,服务器130可以从数据库140检索关于多个相应图像的特征的信息。而且,通过基于它们在可视特征空间中的位置把多个图像的特征聚类成接近特征的群集(例如,使用K均值聚类技术),服务器130可以形成群集(在下文中称为单词单元)。另外,服务器130可以按不同的一维单词(或数字)索引单词单元,且把对应于单词单元中的每一个的图像信息存储在数据库140中。图像信息可以包括关于各个单词单元中所包括的图像的特征的标识符和信息。此时,服务器130可以给单词单元指派不指示距离信息的一维单词(或数字)或者指示关于在各单词单元之间的距离的信息的单词。即是说,在数据库140中被存储为索引的一维单词(或一维数字)可以包括或不包括距离信息。另外,在服务器130获取从终端110传输的作为查询的输入图像时,服务器130可以检测输入图像的特征并提取关于特征的信息。在这种情况中,服务器130可以从终端110接收关于输入图像的特征的信息。
服务器130可以获取可视特征空间中的特征所对应于的单词以及紧靠该特征对应的单词的邻近单词。在该单词不呈现距离信息时,可以使用稍后将描述的如图7中所示出查找表来获取邻近单词。然而,在单词指示距离信息时,没有必要使用图7的查找表来获取邻近单词。
服务器130可以从数据库140中的图像搜索图像,该图像包括与输入图像的特征相同或相似的、对应于该单词和该邻近单词的特征。
根据另一实施方式,服务器130可以检测被存储在数据库140中的多个图像中的每一个的特征,并提取关于这些特征的信息。在这种情况中,可能已经提取多个图像的特征并将其存储在数据库140中。进一步,在这种情况中,服务器130可以从数据库140检索关于多个相应图像的特征的信息。另外,通过基于多个图像的特征在可视特征空间中的位置聚类接近特征(例如,使用K均值聚类技术),服务器130可以形成单词单元。服务器130可以在数据库140中把不同的m维(比特)的二进制码存储为包括与在各单词单元之间的距离相关联的信息的索引,且另外把关于对应于被指派给各个二进制码的单词单元的图像的特征的标识符和信息存储为图像信息。
另外,在获取作为查询从终端110传输的输入图像时,服务器130可以检测输入图像的特征并提取关于特征的信息。在这种情况中,服务器130可以从终端110接收关于输入图像的特征的信息。服务器130可以从与在可视特征空间中特征所对应于的m维二进制代码和邻近的m维二进制代码对应的图像中搜索包括与输入图像的特征相同或相似的特征的图像。
与特征相关联的信息可以包括被表示成n维矢量的特征描述符。在YunchaoGong和Svetlana Lazebnik的、于2011年4月在“conference on computer vision andpattern recognition(CVPR)(计算机视觉和图案识别会议)”发表的、标题为“IterativeQuantization:A Procrustean Approach to Learning Binary Codes(迭代量化:学习二进制码的暴力方法))的论文中,提出了用于把被表示成n维矢量的特征描述符映射到m维二进制代码的技术。根据这种技术,即使被表示成n维矢量的特征描述符被映射到m维二进制码,也可以保留原始特征描述符的原始距离信息。
在转换成表示关于在各单词单元之间的距离的信息的不同的m维二进制码时,这种技术可以由在如上所述的另一实施方式中的服务器130用来把每一单词单元的中心点的描述符(例如,被表示成n维矢量的描述符)映射到m维二进制代码。
根据另一实施方式,服务器130可以检测被存储在数据库140中的多个相应图像的特征并提取关于特征的信息。可能已经提取多个相应图像的特征并将其存储在数据库140中。在这种情况中,服务器130可以从数据库140检索关于多个相应图像的特征的信息。另外,服务器130可以把多个图像的特征描述符映射到包括距离信息的不同的m维二进制码。在多个图像的特征描述符当中,服务器130可以把具有在预定范围内的距离的特征描述符映射到一个二进制代码。因此,具有落在多个不同的预定范围内的距离的多个特征描述符可以对应于不同的二进制码。服务器130可以把包括距离信息的不同的m维二进制码提供为索引,并把对应于相应单词单元的图像信息存储在数据库140中。图像信息可以是关于与相应单词单元对应的图像的特征的标识符和信息。
在上述另一实施方式中,服务器130搜遍带有m维二进制代码及其邻近的m维二进制代码的图像,该m维二进制代码被指派给可视特征空间中特征被映射到的单词单元。然而,根据又一种实施方式,服务器130可以直接使得输入图像的特征对应于m维二进制代码,并搜遍带有m维二进制代码及其邻近的m维二进制代码的图像。
在以上所描述的另一实施方式和又一种实施方式中,m维二进制码可以是具有关于距离(该距离是海明距离)的信息的代码,且“m”可以表示小于“n”的整数。例如,在使用128维矢量来表示特征描述符时,二进制代码可以是32比特或64比特。然而,“m”并不必定是小于“n”的整数。另外,距离信息可以是关于欧几里得距离的信息。
图2到图4是阐释服务器通过使用数据库中的图像来在数据库中构造索引和图像信息的本公开内容的实施方式的图。
图2阐释被存储在数据库140中的多个图像IM1到IMk。标号f11、f12和f1x可以指示在图像IM1的多个特征当中的三个特征。标号f21、f22和f2x可以指示在图像IM2的多个特征当中的三个特征。标号fk1、fk2和fkx可以指示在图像IMk的多个特征当中的三个特征。
图3示出关于被存储在数据库140中的多个图像IM1到IMk的多个特征在二维可视特征空间中的位置的信息,其中被表示成n维矢量的特征描述符的维数被减小,以便在二维可视特征空间中表示。图3中所阐释的在二维可视特征空间中聚类多个图像IM1到IMk的特征(例如,使用K均值聚类技术)可以形成八个单词单元,且这八个单词单元可以被指派给单词A到H。另外,可以获取关于八个单词单元的中心点c1到c8的信息。在本公开内容中,关于每一单词单元的中心点的信息可以是中心点的描述符,且中心点的描述符可以是相应的单词单元中所包括的特征描述符的平均值。
图4阐释具有根据本公开内容的一种实施方式的索引和图像信息的数据库。单词A到H可以被存储为分别用于图3中的单词单元的索引。进一步,对应于图3中的单词A的图像IM1的标识符和特征f11的特征描述符、图像IM2的标识符和特征f12的特征描述符等等可以被存储为图像信息。进一步,对应于图3中的单词B的图像IM2的标识符和特征点f22的特征描述符及类似物可以被存储为图像信息。而且,对应于图3中的单词C的图像IM1的标识符和特征f12的特征描述符及类似物可以被存储为图像信息。以相同的方式,数据库可以存储图像IMk的标识符和特征fk1的特征描述符及类似物(其对应于图3中的单词D且可以被存储为图像信息)。而且,对应于单词E的图像IMk的标识符和特征fk2的特征描述符及类似物可以被存储为图像信息。另外,对应于单词F的图像IMk的标识符和特征fkx的特征描述符及类似物可以被存储为图像信息。另外,对应于单词G的图像IM2的标识符和特征f2k的特征描述符及类似物被存储为图像信息。而且,对应于单词H的图像IM1的标识符和特征f1k的特征描述符及类似物被存储为图像信息。在图4中,为方便起见,各标识符分别被表示成IM1、IM2、…,且各特征描述符分别被表示成f11、f21、f22、f12、f1k、…。
图5是带有根据本公开内容的另一实施方式的索引和图像信息的数据库结构的示意图。在这一实施方式中,包括距离信息的四维(即,4比特)二进制码可以被分配给如图3中所阐释的被指派给一个单词单元的一维单词,以便存储为索引。例如,如果二进制代码“0000”是被分配给被指派给图3中的单词A的单词单元,则二进制代码“0001”可以被分配给被指派给单词B且与被指派给单词A邻近的单词单元的单词单元。进一步,二进制代码“0011”可以被分配给被指派给单词C的单词单元,且二进制代码“1111”可以被分配给被指派给单词H的单词单元。二进制码可以是包括关于海明距离的信息的代码。因此,相差一比特的二进制码“0000”和“0001”可以指示它们是具有为1的距离差的单词单元。进一步,相差两个比特的二进制码“0000”和“0011”可以指示它们是具有为2的距离差的单词单元。另外,相差四个比特的二进制码“0000”和“1111”将指示它们是具有为4的距离差的单词单元。因而,单词A的二进制代码与单词B的二进制代码相差1比特,且单词B的二进制代码与单词C的二进制代码相差1比特。因而,二进制码包括指示单词A和B邻近的距离信息。而且,二进制码包括指示单词B和C邻近的距离信息。
另外,根据本公开内容的又一种实施方式,可以使用上面描述的把被表示为n维矢量的特征描述符映射到m维二进制码的技术来构建图5中所阐释的数据库,而无需使用图3的可视特征空间。
在构建图5的数据库时,在m维二进制码当中,可以不索引包括不重要的图像信息的二进制代码。作为示例,包括不重要的图像信息的二进制代码可以是相比于其他二进制码包括关于较少数量的图像的特征的信息代码,但不限于此。
图6是根据本公开内容的一种实施方式的服务器的框图。在这一实施方式中,服务器130可以包括特征获取单元131、特征描述符获取单元133、单词和邻近单词获取单元135和搜索单元137。
下面将描述图6中所示出的每个框的功能。
特征获取单元131可以获取输入图像的特征。特征描述符获取单元133可以获取用于每一特征的特征描述符。特征描述符可以被表示为n维矢量。单词和邻近单词获取单元135可以使用特征描述符来获取特征所对应于的单词和邻近单词。对于获取特征所对应于的单词,可以获取被指派给包括图3的可视特征空间中的预先确定的特征的单词单元的单词,作为特征所对应于的单词。替代地,可以通过以下获取特征所对应于的单词:通过计算在预先确定的特征和单词单元的中心点c1到c8中的每一个之间的距离,并把被指派给具有其中心点到预先确定的特征的最短距离的单词单元的单词分配给该特征所对应于的单词。对于获取邻近单词,在获取特征描述符的单词时,根据图7中所阐释的一种实施方式的单词-邻近单词表可以被用来根据距离差异获取邻近单词。图7的查找表指示,在图3的可视特征空间中,在被指派给单词A的单元和被指派给单词B的单元之间的距离差是1,在被指派给单词A的单元和被指派给单词C的单元之间的距离差是2,且在被指派给单词A的单元和被指派给单词H的单元之间的距离差是4。单词和邻近单词获取单元135可以存储靠近查找表中的相应单词的邻近单词,以使得在获取输入图像的特征的单词时可以立即获取邻近单词。然而,在各单词包括距离信息时,不需要使用图7的查找表来查找邻近单词。
搜索单元137可以基于数据库140中的单词和邻近单词的图像信息搜索与输入图像相同或相似的图像。例如,基于数据库140中的单词和邻近单词的图像信息,搜索单元137可以考虑由特征描述符获取单元133获取的特征的特征描述符与单词和邻近单词的图像信息中包括的特征的特征描述符的距离,并给该特征指派与包括具有最小距离的特征的图像相同的标识符。以这种方式,搜索单元137可以把标识符分配给输入图像的特征,并把其标识符被最频繁地分配的至少一个图像标识为相同或相似的图像。
根据图6的实施方式,服务器130的搜索单元137可以搜遍图4中所阐释的数据库以便定位与输入图像相同或相似的图像。
图8是根据本公开内容的另一实施方式的服务器的框图。服务器130可以包括特征获取单元131'、特征描述符获取单元133'、二进制代码获取单元135'和搜索单元137'。
下面将描述图8中所示出的每个框的功能。
特征获取单元131和特征描述符获取单元133'可以执行与图6中所阐释的特征获取单元131和特征描述符获取单元133的那些功能相同或相似的功能。二进制代码获取单元135'可以获取被分配给可视特征空间中特征所对应于的单词单元的二进制代码,即,包括距离信息的二进制代码。可以通过以下获取用于该特征所对应于的单词单元的二进制代码:计算输入图像的特征的描述符与单词单元的相应中心点c1到c8的描述符的距离,并把先前被指派给包括其描述符具有最短距离的中心点的单词单元的二进制代码分配给输入图像的特征点的描述符。
基于用于由二进制代码获取单元135'提取的二进制代码及其邻近二进制代码的图像信息,搜索单元137'可以搜索与输入图像相同或相似的图像。用于数据库140中的索引的二进制代码可以包括距离信息。因而,在获取二进制代码时,搜索单元137'可以标识其邻近二进制代码。另外,通过设置距离差,搜索单元137'还可以标识在预定距离差内的邻近二进制代码。如果距离差被设置为1,则搜索单元137'可以基于彼此相差1比特的一个和另一个二进制代码的图像信息搜索与输入图像相同或相似的图像。例如,基于在由特征描述符获取单元133'获取的特征的特征描述符与由二进制代码获取单元135'获取的二进制代码及其邻近二进制代码的图像信息中所包括的特征的相应特征描述符之间的距离,搜索单元137'可以给具体的特征指派与包括具有最小距离的特征的图像的标识符相同的标识符。以这种方式,搜索单元137'可以把标识符分配给输入图像的特征,并把其标识符被最频繁地分配的至少一个图像分类为相同或相似的图像。
根据图8的又一种实施方式,服务器130的搜索单元137'可以搜遍图5中所阐释的数据库,以便标识与输入图像相同或相似的图像。
图9是根据本公开内容的又一种实施方式的服务器的框图。服务器130可以包括特征获取单元131″、特征描述符获取单元133″、特征描述符-二进制代码映射单元135″和搜索单元137″。
下面将描述图9中所示出的每个框的功能。
特征获取单元131″和特征描述符获取单元133″可以执行与图6的特征获取单元131和特征描述符获取单元133的那些功能相同或相似的功能。特征描述符-二进制代码映射单元135″可以把被表示成n维矢量的特征描述符映射成m维二进制代码,同时保留关于在各特征之间的距离的信息。特征描述符-二进制代码映射单元135″可以使用在CVPR中公开的上面所描述的技术来把特征描述符映射到m维二进制代码,而无需在可视特征空间中形成特征的群集。这种技术可以把具有在预定范围内的距离的特征描述符映射到相应的二进制代码。在此不描述搜索单元137″的功能的细节,这是因为参考上面关于图8的搜索单元137'的描述可以容易地理解这一点。
图10是根据本公开内容的一种实施方式的搜索单元的框图。搜索单元137可以包括标识符分配单元137-1和分类单元137-2。
下面描述图10中所示出的每个框的功能。
基于在输入图像的特征和对应于单词和邻近单词的相应图像的特征之间的距离,标识符分配单元137-1可以分配对应于单词或邻近单词的图像中的至少一个的信息。例如,标识符分配单元137-1可以计算在输入图像的特征和对应于单词和邻近单词的图像的相应特征之间的距离,并把对应于单词和邻近单词且包括具有最短距离的特征的图像的标识符分配给输入图像的特征。
基于被分配给输入图像的相应特征的图像的标识符,分类单元137-2可以标识与输入图像相同或相似的图像。例如,分类单元137-2可以检查被分配给输入图像的相应特征的图像的标识符,并把其标识符被最频繁地分配的图像标识为与输入图像相同或相似的图像。
不仅可以在图6的搜索单元的各实施方式中的一个中实现图10的搜索单元137,而且也在图8的搜索单元137'和图9搜索单元137"的各实施方式中的一个中实现图10的搜索单元137。
在上面的实施方式中已经描述了可以把输入图像作为查询从终端110传输出去,且服务器130可以获取输入图像并执行图像搜索。然而,终端110可以检测输入图像的特征,提取关于特征的信息并将其传输给服务器130。进一步,终端110可以获取特征所对应于的单词和紧靠该单词的邻近单词,并把那些单词传输给服务器130。
另外,在终端110下载数据库140中的图像中的一些并存储时,终端可以执行图像搜索。即,终端可以自己输入一输入图像,并配备有图6到图10中所阐释的配置,以执行与服务器130的图像搜索操作相同的图像搜索操作。
根据本公开内容,可以使用海赛(Hessian)仿射检测器来检测特征。进一步,可以使用尺度不变特征变换(scale invariant feature transform,SIFT)算法来提取特征描述符。另外,在本公开内容中可以应用用于检测特征和提取点描述符的各种公知的技术。
可以以程序命令的形式实现以上所描述的根据本公开内容的实施方式,可以通过各种计算机组件执行该程序命令并将其存储在计算机可读记录介质中。计算机可读记录介质可以单独地以组合方式包括程序命令、数据文件、数据结构等等。计算机可读记录介质中所记录的程序命令可以是为本公开内容专门设计或配置的程序命令或已知由计算机软件领域的中的技术人员使用的程序命令。计算机可读记录介质包括例如磁介质(例如硬盘、软盘和磁带)、光记录介质(例如CD-ROM和DVD、磁-光介质(例如光磁软盘(floptical disk))以及专门配置为存储和执行程序命令的硬件设备,例如ROM、RAM、闪速存储器等等。程序命令包括例如可由使用解释器或类似物的计算机执行的高级语言代码以及由编译器生成的机器代码。硬件设备可以被配置为使用一个或多个软件模块操作,以便执行根据本公开内容的处理,且反之亦然。
在前述的讨论中,尽管已经结合诸如特定组件、各种实施方式和附图等的特定事项描述了本公开内容,但仅出于帮助理解本公开内容的目的而提供这些特定事项,且本公开内容不限于这些实施方式。应明显看出,本领域中的技术人员可以从这些描述对其做出各种修改和改变。
因此,本公开内容的精神应不限于上面的实施方式,且所附权利要求及其同等地或等效地对其修改的内容将被认为是落在本公开内容的范围之内。
Claims (49)
1.一种图像搜索方法,包括:
(a)由图像搜索装置获取输入图像的特征;
(b)由所述图像搜索装置获取相应特征所对应的单词和靠近所述特征所对应的相应单词的邻近单词,其中,在可视特征空间中所包括的多个单词单元中的第一单词单元被指派给一个单词时,邻近单词是被指派给所述多个单词单元的至少一个第二单词单元的单词,所述第二单词单元靠近被指派给所述单词的所述第一单词单元,其中,所述多个单词单元被指派给不同的单词,并且在离所述单词预定距离内的至少一个单词被指定为所述邻近单词;
(c)基于与对应于所述单词的第一组图像相关联的信息以及与对应于所述邻近单词的第二组图像相关联的信息,由所述图像搜索装置搜索与所述输入图像相同或相似的图像,关于所述第一组和第二组图像的信息被存储在数据库中。
2.如权利要求1所述的方法,其特征在于,步骤(a)包括获取用于所述输入图像的相应特征的特征描述符。
3.如权利要求1所述的方法,其特征在于,所述距离信息是关于欧几里德距离的信息。
4.如权利要求2所述的方法,其特征在于,关于对应于所述单词的所述第一组图像的信息包括与来自所述可视特征空间中的所述多个单词单元当中的、所述单词被指派给的所述第一单词单元相对应的相应第一组图像的标识符和特征描述符,且关于对应于所述邻近单词的所述第二组图像的信息包括与靠近来自所述可视特征空间中的所述多个单词单元当中的、所述单词被指派给的所述第一单词单元的至少一个第二单词单元相对应的相应第二组图像的标识符和特征描述符。
5.如权利要求4所述的方法,其特征在于,通过获取被存储在所述数据库中的多个相应图像的特征,且基于所述可视特征空间中的位置,聚类所述多个图像的特征,来形成所述可视特征空间中的所述多个单词单元,且所述多个单词单元被指派给不同的单词。
6.如权利要求5所述的方法,其特征在于,所指派的单词包括关于在所述可视特征空间中的所述多个单词单元之间的距离的信息。
7.如权利要求5所述的方法,其特征在于,在步骤(b),通过使用关于中心点的信息,每一中心点是对应于相应单词单元的图像的特征的平均值,来比较在所述输入图像的相应特征和所述多个单词单元的相应中心点之间的距离,获取所述单词,并且,对于所述单词,获取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的单词。
8.如权利要求4所述的方法,其特征在于,步骤(c)包括:
基于所述输入图像的相应特征离所述第一组和第二组图像的相应特征的距离,把所述第一组和第二组图像中的至少一个图像的标识符分配给所述输入图像的每一特征;以及
基于被分配给所述输入图像的相应特征的所述标识符,标识与所述输入图像相同或相似的图像。
9.一种图像搜索方法,包括:
(a)由图像搜索装置获取输入图像的特征;
(b)由所述图像搜索装置获取相应特征所对应的二进制代码;以及
(c)基于与对应于所述二进制代码的第一组图像相关联的信息,以及与对应于靠近所述二进制代码且包括关于到所述二进制代码的距离的信息的邻近二进制代码的第二组图像相关联的信息,由所述图像搜索装置搜索与所述输入图像相同或相似的图像,关于所述第一组和第二组图像的信息被存储在数据库中,其中,在可视特征空间中的多个单词单元中的第一单词单元被指派给二进制代码时,邻近二进制代码是被指派给所述多个单词单元中的至少一个第二单词单元的代码,所述第二单词单元靠近所述第一单词单元且包括关于到所述第一单词单元的距离的信息,其中,所述多个单词单元被指派给不同的二进制代码,且在离所述二进制代码的预定距离内的至少一个二进制代码被指定为所述邻近二进制代码。
10.如权利要求9所述的方法,其特征在于,步骤(a)包括获取所述输入图像的相应特征的特征描述符。
11.如权利要求10所述的方法,其特征在于,每一特征点的所述特征描述符被表示成n维矢量,且所述二进制代码由m个比特组成,其中m小于n。
12.如权利要求9所述的方法,其特征在于,关于所述距离的信息是关于欧几里德距离的信息。
13.如权利要求10所述的方法,其特征在于,关于对应于所述二进制代码的所述第一组图像的信息包括与在所述可视特征空间中的所述多个单词单元当中的、所述二进制代码被指派给的所述第一单词单元相对应的相应第一组图像的标识符和特征描述符,且关于对应于所述邻近二进制代码的所述第二图像的信息包括与在所述可视特征空间中的所述多个单词单元当中的所述第二单词单元相对应的相应第二图像的标识符和特征描述符,所述第二单词单元靠近所述第一单词单元且被指派给包括关于到所述二进制代码的距离的信息的所述邻近二进制代码。
14.如权利要求13所述的方法,其特征在于,通过获取被存储在所述数据库中的多个相应图像的特征且基于在所述可视特征空间中的位置,聚类所述多个图像的所述特征,来形成所述可视特征空间中的所述多个单词单元,且所述多个相应单词单元被指派给包括关于在所述多个单词单元之间的距离的信息的二进制代码。
15.如权利要求14所述的方法,其特征在于,在步骤(b),使用中心点的描述符,每一中心点是对应于相应单词单元的图像的特征的平均值,来比较在所述输入图像的相应特征和所述多个相应单词单元的相应中心点之间的距离,获取所述二进制代码,并且,对于所述二进制代码,获取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的二进制代码。
16.如权利要求14所述的方法,其特征在于,步骤(c)包括:
基于所述输入图像的相应特征离所述第一组和第二组图像的相应特征的距离,把所述第一组和第二组图像中的至少一个图像的标识符分配给所述输入图像的每一特征;以及
基于被分配给所述输入图像的相应特征的所述标识符,标识与所述输入图像相同或相似的图像。
17.如权利要求14所述的方法,其特征在于,关于所述距离的信息是关于海明距离的信息。
18.一种图像搜索方法,包括:
(a)由图像搜索装置获取输入图像的特征;
(b)由所述图像搜索装置获取所述输入图像的相应特征的特征描述符;
(c)由所述图像搜索装置把所述输入图像的所述特征的所述特征描述符映射到二进制代码;以及
(d)基于与对应于所述二进制代码的第一组图像相关联的信息以及与对应于靠近所述二进制代码且其包括指示邻近二进制代码靠近所述二进制代码的距离信息的邻近二进制代码的第二图像相关联的信息,由所述图像搜索装置搜索与所述输入图像相同或相似的图像,关于所述第一组和第二组图像的信息被存储在数据库中,其中,在离所述二进制代码的预定距离内的至少一个二进制代码被指定为所述邻近二进制代码。
19.如权利要求18所述的方法,其特征在于,每一特征的所述特征描述符被表示成n维矢量,且所述二进制代码由m个比特组成,其中m小于n。
20.如权利要求18所述的方法,其特征在于,所述距离信息是关于欧几里德距离的信息。
21.如权利要求19所述的方法,其特征在于,步骤(d)包括:
基于所述输入图像的相应特征到所述第一组和第二组图像的相应特征的距离,把关于所述第一组和第二组图像中的至少一个图像的信息分配给所述输入图像的每一特征;以及
基于被分配给所述输入图像的每一特征的关于至少一个图像的信息,标识与所述输入图像相同或相似的图像。
22.如权利要求18所述的方法,其特征在于,步骤(c)包括获取被存储在所述数据库中的多个相应图像的特征,获取所述多个图像的相应特征的特征描述符,并且把具有在多个不同的预定范围内的距离的多个特征描述符映射到不同的二进制代码。
23.如权利要求18所述的方法,其特征在于,所述距离信息是关于海明距离的信息。
24.如权利要求18所述的方法,其特征在于,步骤(c)包括把具有在预定范围内的距离的所述输入图像的相应特征描述符映射到相应的二进制代码。
25.一种图像搜索装置,包括:
特征获取单元,其用于获取输入图像的特征;
单词和邻近单词获取单元,其用于获取相应特征所对应的单词和靠近所述单词的邻近单词,其中,在可视特征空间中所包括的多个单词单元中的第一单词单元被指派给一单词时,邻近单词是被指派给所述多个单词单元的至少一个第二单词单元的单词,所述第二单词单元靠近所述单词被指派给的所述第一单词单元,且所述多个单词单元被指派给不同的单词,并且在离所述单词预定距离内的至少一个单词被指定为所述邻近单词;以及
搜索单元,其基于与对应于所述单词的第一组图像相关联的信息以及与对应于所述邻近单词的第二组图像相关联的信息搜索与所述输入图像相同或相似的图像,关于所述第一组和第二组图像的信息被存储在数据库中。
26.如权利要求25所述的装置,其特征在于,所述单词和邻近单词获取单元与包括关于被映射到所述可视特征空间中的所述单词的所述邻近单词的信息的查找表相关联。
27.如权利要求25所述的装置,其特征在于,所述距离信息是关于欧几里德距离的信息。
28.如权利要求25所述的装置,进一步包括特征获取单元,其用于获取所述输入图像的相应特征的特征描述符,其中,关于对应于所述单词的所述第一组图像的信息包括与来自所述可视特征空间中的所述多个单词单元当中的、所述单词被指派给的所述第一单词单元相对应的相应第一组图像的标识符和特征描述符,且关于对应于所述邻近单词的所述第二组图像的信息包括与靠近来自所述可视特征空间中的所述多个单词单元当中的、所述单词被指派给的所述第一单词单元的至少一个第二单词单元相对应的相应第二组图像的标识符和特征描述符。
29.如权利要求28所述的所述装置,其特征在于,通过获取被存储在所述数据库中的多个相应图像的特征并且基于在所述可视特征空间中的位置聚类所述多个图像的所述特征,来形成所述可视特征空间中的所述多个单词单元,且所述多个单词单元被指派给不同的单词。
30.如权利要求29所述的装置,其特征在于,所指派的单词包括关于在所述可视特征空间中的所述多个单词单元之间的距离的信息。
31.如权利要求29所述的装置,其特征在于,所述单词和邻近单词获取单元使用关于中心点的信息,每一中心点是对应于相应单词单元的图像的特征的平均值,来比较在所述输入图像的相应特征和所述多个单词单元的相应中心点之间的距离,并且,对于所述单词,获取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的单词。
32.如权利要求28所述的装置,其特征在于,所述搜索单元包括:
标识符分配单元,其基于所述输入图像的相应特征到所述第一组和第二组图像的相应特征的距离,把所述第一组图像和所述第二组图像的至少一个图像的标识符分配给所述输入图像的每一特征;以及
分类单元,其基于被分配给所述输入图像的相应特征的所述标识符,标识与所述输入图像相同或相似的图像。
33.一种图像搜索装置,包括:
特征点获取单元,其用于获取输入图像的特征点;
二进制代码获取单元,其用于获取相应特征所对应的二进制代码;以及
搜索单元,其基于与对应于所述二进制代码的第一组图像相关联的信息以及与对应于靠近所述二进制代码且其包括关于到所述二进制代码的距离的信息的邻近二进制代码的第二组图像相关联的信息,来搜索与所述输入图像相同或相似的图像,关于所述第一组和第二组图像的信息被存储在数据库中,其中,在可视特征空间中的多个单词单元中的第一单词单元被指派给二进制代码时,邻近二进制代码是被指派给所述多个单词单元中的至少一个第二单词单元的代码,所述第二单词单元靠近所述第一单词单元且包括关于到所述第一单词单元的距离的信息,所述多个单词单元被指派给不同的二进制代码,并且,在离所述二进制代码的预定距离内的至少一个二进制代码被指定为邻近二进制代码。
34.如权利要求33所述的装置,进一步包括特征获取单元,其用于获取所述输入图像的相应特征的特征描述符。
35.如权利要求34所述的装置,其特征在于,每一特征的所述特征描述符被表示成n维矢量,且所述二进制代码由m个比特组成,其中m小于n。
36.如权利要求33所述的装置,其特征在于,所述距离信息是关于欧几里德距离的信息。
37.如权利要求33所述的装置,其特征在于,关于对应于所述二进制代码的所述第一组图像的信息包括与在所述可视特征空间中的所述多个单词单元当中的、所述二进制代码被指派给的所述第一单词单元相对应的相应第一组图像的标识符和特征描述符,且关于对应于所述邻近二进制代码的所述第二组图像的信息包括与在所述可视特征空间中的所述多个单词单元当中的所述第二单词单元相对应的相应第二组图像的标识符和特征描述符,所述第二单词单元靠近所述二进制代码被指派给的所述第一单词单元,且被指派给包括关于到所述二进制代码的距离的信息的所述邻近二进制代码。
38.如权利要求37所述的装置,其特征在于,通过获取被存储在所述数据库中的多个相应图像的特征并且基于所述可视特征空间中的位置聚类所述多个图像的所述特征,来形成所述可视特征空间中的所述多个单词单元,且所述多个相应单词单元被指派给包括关于在所述多个单词单元之间的距离的信息的二进制代码。
39.如权利要求38所述的装置,其特征在于,所述二进制代码获取单元使用中心点的描述符,每一中心点是对应于相应单词单元的图像的特征的平均值,比较在所述输入图像的相应特征和所述多个相应单词单元的相应中心点之间的距离,且对于所述二进制代码,获取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的二进制代码。
40.如权利要求37所述的所述装置,其特征在于,所述搜索单元包括:
标识符分配单元,其基于所述输入图像的相应特征到所述第一组和第二组图像的所述特征的距离,把所述第一组和第二组图像中的至少一个图像的标识符分配给所述输入图像的每一特征;以及
分类单元,其基于被分配给所述输入图像的所述特征点中的每一个的所述标识符,标识与所述输入图像相同或相似的图像。
41.如权利要求33所述的装置,其特征在于,所述距离信息是关于海明距离的信息。
42.一种图像搜索装置,包括:
特征获取单元,其用于获取输入图像的特征;
特征描述符获取单元,其用于获取用于所述输入图像的相应特征的特征描述符;
特征描述符-二进制代码映射单元,其用于把所述输入图像的所述特征的所述特征描述符映射到二进制代码;以及
搜索单元,其基于与对应于所述二进制代码的第一组图像相关联的信息以及与对应于靠近所述二进制代码且其包括指示邻近二进制代码靠近所述二进制代码的信息的邻近二进制代码的第二组图像相关联的信息,搜索与所述输入图像相同或相似的图像,关于所述第一组和第二组图像的信息被存储在数据库中,其中,在离所述二进制代码的预定距离内的至少一个二进制代码被指定为邻近二进制代码。
43.如权利要求42所述的装置,其特征在于,每一特征的所述特征描述符被表示成n维矢量,且所述二进制代码由m个比特组成,其中m小于n。
44.如权利要求42所述的装置,其特征在于,所述距离信息是关于欧几里德距离的信息。
45.如权利要求42所述的装置,其特征在于,所述搜索单元包括:
标识符分配单元,其基于所述输入图像的相应特征到所述第一组和第二组图像的相应特征的距离把关于所述第一组和第二组图像中的至少一个图像的信息分配给所述输入图像的每一特征;以及
分类单元,其基于被分配给所述输入图像的每一特征的关于至少一个图像的信息,标识与所述输入图像相同或相似的图像。
46.如权利要求42所述的装置,其特征在于,获取被存储在所述数据库中的多个相应图像的特征,获取用于所述多个图像的相应特征的特征点描述符,以及具有在离不同的二进制代码的多个不同的预定范围内的距离的多个特征描述符。
47.如权利要求42所述的装置,其特征在于,所述距离信息是关于海明距离的信息。
48.如权利要求42所述的装置,其特征在于,所述特征描述符-二进制代码映射单元把用于具有在预定范围内的距离的所述输入图像的相应特征描述符映射到相应的二进制代码。
49.一种非暂态计算机可读记录介质,其用于记录用于执行根据权利要求1到24中的任何一项的所述方法的计算机程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110119638A KR101191223B1 (ko) | 2011-11-16 | 2011-11-16 | 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체 |
KR10-2011-0119638 | 2011-11-16 | ||
PCT/KR2012/009506 WO2013073805A1 (ko) | 2011-11-16 | 2012-11-12 | 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104094255A true CN104094255A (zh) | 2014-10-08 |
CN104094255B CN104094255B (zh) | 2017-11-17 |
Family
ID=47288020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280067115.1A Active CN104094255B (zh) | 2011-11-16 | 2012-11-12 | 用于搜索图像的方法和装置以及用于执行该方法的计算机可读记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9747308B2 (zh) |
KR (1) | KR101191223B1 (zh) |
CN (1) | CN104094255B (zh) |
WO (1) | WO2013073805A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017000880A1 (zh) * | 2015-06-29 | 2017-01-05 | 株式会社日立制作所 | 信息处理方法、信息处理装置和视频监控系统 |
CN110879846A (zh) * | 2018-09-05 | 2020-03-13 | 深圳云天励飞技术有限公司 | 图像检索方法及装置、电子设备和计算机可读存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101966925B1 (ko) * | 2012-12-07 | 2019-04-08 | 주식회사 케이티 | 컨텐츠를 식별하는 장치 및 방법 |
WO2014167880A1 (ja) * | 2013-04-09 | 2014-10-16 | 株式会社日立国際電気 | 画像検索装置、画像検索方法、および記録媒体 |
KR101707166B1 (ko) * | 2015-11-27 | 2017-02-15 | 경희대학교 산학협력단 | 이미지 검색 시스템을 위한 이미지 벡터 추출 방법 및 장치 |
US10628481B2 (en) | 2016-11-17 | 2020-04-21 | Ebay Inc. | Projecting visual aspects into a vector space |
KR102041994B1 (ko) * | 2016-12-08 | 2019-12-02 | 경희대학교 산학협력단 | 복수의 질의 이미지 검색을 위한 효과적인 이미지 벡터 병합 |
US10437878B2 (en) * | 2016-12-28 | 2019-10-08 | Shutterstock, Inc. | Identification of a salient portion of an image |
US11042586B2 (en) * | 2016-12-29 | 2021-06-22 | Shutterstock, Inc. | Clustering search results based on image composition |
JP7011152B2 (ja) * | 2017-08-30 | 2022-01-26 | 富士通株式会社 | 生体画像処理装置、生体画像処理方法、及び生体画像処理プログラム |
CN109348120B (zh) * | 2018-09-30 | 2021-07-20 | 烽火通信科技股份有限公司 | 一种拍摄方法、图像的显示方法、系统及设备 |
US11625429B2 (en) * | 2020-01-31 | 2023-04-11 | Walmart Apollo, Llc | Image searching using a full-text search engine |
CN111651674B (zh) * | 2020-06-03 | 2023-08-25 | 北京妙医佳健康科技集团有限公司 | 双向搜索方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101133429A (zh) * | 2005-03-01 | 2008-02-27 | 公立大学法人大阪府立大学 | 文档和/或图像检索方法及其程序、文档和/或图像存储设备和检索设备 |
US20100250601A1 (en) * | 2008-07-29 | 2010-09-30 | Kazutoyo Takata | Image search device and image search method |
CN101894130A (zh) * | 2010-06-08 | 2010-11-24 | 浙江大学 | 基于稀疏降维的谱哈希索引方法 |
CN101950302A (zh) * | 2010-09-29 | 2011-01-19 | 李晓耕 | 基于移动设备的海量音乐库管理方法 |
US20110078176A1 (en) * | 2009-09-25 | 2011-03-31 | Seiko Epson Corporation | Image search apparatus and method |
CN102147815A (zh) * | 2011-04-21 | 2011-08-10 | 北京大学 | 图片搜索方法和图片搜索系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2944557B2 (ja) | 1997-02-27 | 1999-09-06 | 日本電気ソフトウェア株式会社 | 縞パターン照合装置 |
US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
KR100841311B1 (ko) * | 2006-11-13 | 2008-06-26 | 엘지전자 주식회사 | 움직임 보상기반 영상 복호화를 위한 영상 압축방법 |
US8254697B2 (en) * | 2009-02-02 | 2012-08-28 | Microsoft Corporation | Scalable near duplicate image search with geometric constraints |
-
2011
- 2011-11-16 KR KR1020110119638A patent/KR101191223B1/ko not_active IP Right Cessation
-
2012
- 2012-11-12 WO PCT/KR2012/009506 patent/WO2013073805A1/ko active Application Filing
- 2012-11-12 US US14/343,164 patent/US9747308B2/en active Active
- 2012-11-12 CN CN201280067115.1A patent/CN104094255B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101133429A (zh) * | 2005-03-01 | 2008-02-27 | 公立大学法人大阪府立大学 | 文档和/或图像检索方法及其程序、文档和/或图像存储设备和检索设备 |
US20100250601A1 (en) * | 2008-07-29 | 2010-09-30 | Kazutoyo Takata | Image search device and image search method |
US20110078176A1 (en) * | 2009-09-25 | 2011-03-31 | Seiko Epson Corporation | Image search apparatus and method |
CN101894130A (zh) * | 2010-06-08 | 2010-11-24 | 浙江大学 | 基于稀疏降维的谱哈希索引方法 |
CN101950302A (zh) * | 2010-09-29 | 2011-01-19 | 李晓耕 | 基于移动设备的海量音乐库管理方法 |
CN102147815A (zh) * | 2011-04-21 | 2011-08-10 | 北京大学 | 图片搜索方法和图片搜索系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017000880A1 (zh) * | 2015-06-29 | 2017-01-05 | 株式会社日立制作所 | 信息处理方法、信息处理装置和视频监控系统 |
US10719735B2 (en) | 2015-06-29 | 2020-07-21 | Hitachi, Ltd. | Information processing method, information processing device and video surveillance system |
CN110879846A (zh) * | 2018-09-05 | 2020-03-13 | 深圳云天励飞技术有限公司 | 图像检索方法及装置、电子设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20140201219A1 (en) | 2014-07-17 |
US9747308B2 (en) | 2017-08-29 |
WO2013073805A1 (ko) | 2013-05-23 |
CN104094255B (zh) | 2017-11-17 |
KR101191223B1 (ko) | 2012-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104094255A (zh) | 用于搜索图像的方法和装置以及用于执行该方法的计算机可读记录介质 | |
Chaudhuri et al. | Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method | |
Girod et al. | Mobile visual search | |
Kim et al. | Predicting good features for image geo-localization using per-bundle vlad | |
Girod et al. | Mobile visual search: Architectures, technologies, and the emerging MPEG standard | |
Li et al. | Contextual bag-of-words for visual categorization | |
CN205721777U (zh) | 视觉搜索设备和系统 | |
JP6211407B2 (ja) | 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム | |
CN103403704B (zh) | 用于查找最近邻的方法和设备 | |
CN103324650A (zh) | 一种图像检索方法及系统 | |
CN111507350B (zh) | 一种文本识别方法和装置 | |
CN102831200A (zh) | 一种基于图像文字识别的商品推送方法和装置 | |
Iakovidou et al. | Localizing global descriptors for content-based image retrieval | |
CN110717366A (zh) | 文本信息的识别方法、装置、设备及存储介质 | |
WO2014014678A1 (en) | Feature extraction and use with a probability density function and divergence|metric | |
Zheng et al. | Domain adaptation via a task-specific classifier framework for remote sensing cross-scene classification | |
Vishal et al. | Accurate localization by fusing images and GPS signals | |
Ramiya et al. | Object-oriented semantic labelling of spectral–spatial LiDAR point cloud for urban land cover classification and buildings detection | |
CN104281572A (zh) | 一种基于互信息的目标匹配方法及其系统 | |
CN111832578A (zh) | 兴趣点信息处理方法、装置、电子设备和存储介质 | |
CN111323024A (zh) | 定位方法及装置、设备、存储介质 | |
Yang et al. | Polar embedding for aurora image retrieval | |
Xiong et al. | Text detection in stores using a repetition prior | |
KR20190124436A (ko) | 영상 기반 건물 검색 방법 및 장치 | |
CN103020153A (zh) | 一种基于视频的广告识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |