CN106485196A

CN106485196A - 视觉搜索方法、对应的系统、设备和计算机程序产品

Info

Publication number: CN106485196A
Application number: CN201610191514.9A
Authority: CN
Inventors: D·P·帕乌; A·彼得雷利; L·D·斯特凡诺
Original assignee: STMicroelectronics SRL
Current assignee: STMicroelectronics SRL
Priority date: 2015-08-28
Filing date: 2016-03-30
Publication date: 2017-03-08
Anticipated expiration: 2036-03-30
Also published as: ITUB20153277A1; CN106485196B; CN205721777U; US20170060904A1; US10585937B2

Abstract

从与数字图像有关的数字图像信息和数字深度信息中提取局部描述符。局部描述符传达与数字图像有关的外观描述信息和形状描述信息。基于所提取的局部描述符生成一个或多个数字图像的全局表示，并且进行散列。基于所散列的全局表示生成视觉搜索查询。视觉搜索查询包括在局部描述符中传达的融合的外观描述信息和形状描述信息。在生成全局表示之前、在散列之前或者在散列之后，可以发生融合。

Description

视觉搜索方法、对应的系统、设备和计算机程序产品

技术领域

本描述涉及视觉搜索技术，例如，移动设备中的视觉搜索。

背景技术

现今，大多数移动设备可以配备有高分辨率相机并且能够连接到因特网。这已经促进了发展并且增加多种移动视觉搜索工具(诸如例如，商品名为Google Goggles^TM、Amazon Flow^TM、CamFind^TM、Vuforia^TM和WeChat Image Platform^TM的那些)的普及。

移动视觉搜索引擎可以使用户能够采集关于在相机视场中可见的对象的信息。特意地，她/他将仅拍摄照片，然后，移动设备可以计算被发送到远程服务器并且匹配到数据库中以识别图像内容并且报告回相关信息的图像的表示。

因此，存在可以适合用于例如移动设备中的改善的视觉搜索技术的继续需求。

发明内容

在实施例中，一种方法，包括：使用数字图像处理电路装置从与一个或多个数字图像有关的数字图像信息和数字深度信息中提取局部描述符，该局部描述符传达与所述一个或多个数字图像有关的外观描述信息和形状描述信息；基于所提取的局部描述符使用数字图像处理电路装置生成一个或多个数字图像的一个或多个全局表示；使用数字图像处理电路装置散列所述一个或多个数字图像的所述一个或多个全局表示；并且基于所散列的一个或多个全局表示使用数字图像处理电路装置生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在局部描述符中传达的所融合的外观描述信息和形状描述信息。在实施例中，该方法包括：融合从所述数字图像信息中提取的局部描述符和从所述数字深度信息中提取的局部描述符；并且基于所融合的局部描述符生成所述一个或多个数字图像的所述一个或多个全局表示。在实施例中，该方法包括：融合包括在所述一个或多个全局表示中的外观描述信息和形状描述信息；以及随后散列所述一个或多个全局表示。在实施例中，该方法包括：在散列所述一个或多个全局表示之后，融合外观描述信息和形状描述信息。在实施例中，数字图像信息包括数字颜色信息。在实施例中，所述一个或多个数字图像包括RGB-D数字图像。在实施例中，该方法包括：选择性地变化包括在视觉搜寻查询的所融合的外观描述信息和形状描述信息中的所述外观描述信息和形状描述信息的相应的数量。

在实施例中，一种设备，包括：一个或多个存储器，其在操作中存储数字图像信息；以及耦合到所述一个或多个存储器的数字图像处理电路装置，其中，该数字图像处理电路装置在操作中从与一个或多个数字图像有关的数字图像信息和数字深度信息中提取局部描述符，该局部描述符传达与所述一个或多个数字图像有关的外观描述信息和形状描述信息；基于所提取的局部描述符生成所述一个或多个数字图像的所述一个或多个全局表示；散列所述一个或多个数字图像的所述一个或多个全局表示；并且基于所散列的一个或多个全局表示生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在局部描述符中传达的所融合的外观描述信息和形状描述信息。在实施例中，该数字图像处理电路装置在操作中融合从所述数字图像信息中提取的局部描述符和从所述数字深度信息中提取的局部描述符；并且基于所融合的局部描述符生成所述一个或多个数字图像的所述一个或多个全局表示。在实施例中，该数字图像处理电路装置在操作中融合包括在所述一个或多个全局表示中的外观描述信息和形状描述信息；并且散列包括所融合的外观描述信息和形状描述信息的所述一个或多个全局表示。在实施例中，该数字图像处理电路装置在操作中融合包括在所散列的一个或多个全局表示中的外观描述信息和形状描述信息。在实施例中，所述一个或多个数字图像包括RGB-D数字图像。在实施例中，该数字图像处理电路装置在操作中选择性地变化包括在视觉搜寻查询的所融合的外观描述信息和形状描述信息中的所述外观描述信息和形状描述信息的相应的数量。在实施例中，该数字图像处理电路装置在操作中响应于视觉搜索响应信号选择性地变化相应的数量。在实施例中，该设备包括集成电路，其包括数字图像处理电路装置。

在实施例中，一种系统，包括：一个或多个图像捕获设备，其在操作捕获数字图像；以及数字图像处理电路装置，其在操作中从与一个或多个数字图像有关的数字图像信息和数字深度信息中提取局部描述符，该局部描述符传达与所述一个或多个数字图像有关的外观描述信息和形状描述信息；基于所提取的局部描述符生成所述一个或多个数字图像的一个或多个全局表示；散列所述一个或多个数字图像的所述一个或多个全局表示；并且基于所散列的一个或多个全局表示生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在局部描述符中传达的所融合的外观描述信息和形状描述信息。在实施例中，该数字图像处理电路装置在操作中融合从所述数字图像信息中提取的局部描述符和从所述数字深度信息中提取的局部描述符；并且基于所融合的局部描述符生成所述一个或多个数字图像的所述一个或多个全局表示。在实施例中，该数字图像处理电路装置在操作中融合包括在所述一个或多个全局表示中的外观描述信息和形状描述信息；并且散列包括所融合的外观描述信息和形状描述信息的所述一个或多个全局表示。在实施例中，该数字图像处理电路装置在操作中融合包括在所散列的一个或多个全局表示中的外观描述信息和形状描述信息。在实施例中，该数字图像处理电路装置在操作中选择性地变化包括在视觉搜寻查询的所融合的外观描述信息和形状描述信息中的所述外观描述信息和形状描述信息的相应的数量。

在实施例中，一种非暂态计算机可读介质的内容使数字图像处理电路装置通过以下各项生成一个或多个视觉搜索查询：从与一个或多个数字图像有关的数字图像信息和数字深度信息中提取局部描述符，该局部描述符传达与所述一个或多个数字图像有关的外观描述信息和形状描述信息；基于所提取的局部描述符生成所述一个或多个数字图像的一个或多个全局表示；散列所述一个或多个数字图像的所述一个或多个全局表示；并且基于所散列的一个或多个全局表示生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在局部描述符中传达的所融合的外观描述信息和形状描述信息。在实施例中，该内容使数字图像处理电路装置执行以下各项中的至少一项：融合从所述数字图像信息中提取的局部描述符和从所述数字深度信息中提取的局部描述符；融合包括在所述一个或多个全局表示中的外观描述信息和形状描述信息；融合包括在所散列的一个或多个全局表示中的外观描述信息和形状描述信息。在实施例中，该内容使数字图像处理电路装置选择性地变化包括在视觉搜寻查询的所融合的外观描述信息和形状描述信息中的所述外观描述信息和形状描述信息的相应的数量。

在实施例中，一种生成用于视觉搜索的查询的方法，包括：获取作为数字图像信息和数字深度信息两者的输入图像；从所述数字图像信息和数字深度信息中提取传达所述图像的外观描述和形状描述的局部描述符；通过融合所述图像的所述外观描述和所述形状描述来生成视觉搜索查询，其中，该方法包括：对从所述数字图像信息和数字深度信息提取的局部描述符进行处理包括：(i)通过将从所述数字图像信息和数字深度信息提取的局部描述符聚合成所述图像的全局编码来进行全局编码，和(ii)散列所述图像的所述全局编码；以及从所述全局编码和所述散列的结果生成所述视觉搜索查询。在实施例中，该方法包括：在所述全局编码和所述散列处理之前，通过融合从所述数字图像信息和数字深度信息中提取的局部描述符来融合所述图像的所述外观描述和所述形状描述。在实施例中，该方法包括：在所述全局编码之后和在所述散列处理之前，通过融合从所述数字图像信息和数字深度信息中提取的局部描述符来融合所述图像的所述外观描述和所述形状描述。在实施例中，该方法包括：在所述全局编码和所述散列处理之后，通过融合从所述数字图像信息(RGB)和数字深度信息中提取的局部描述符来融合所述图像的所述外观描述和所述形状描述。在实施例中，该方法包括：通过获取数字颜色图像信息和深度信息来获取所述图像，优选地，作为RGB-D图像。在实施例中，该方法包括：选择性地变化在生成所述视觉搜寻查询中所融合的所述图像的所述外观描述和所述形状描述的相应的数量。在实施例中，一种用于从作为数字图像信息和数字深度信息两者获取的图像来生成用于视觉搜索的查询的系统，包括：局部描述符提取装置，其用于从所述数字图像信息和数字深度信息中提取传达所述图像的外观描述和形状描述的局部描述符；至少一个融合模块，其用于通过融合所述图像的所述外观描述和所述形状描述来生成视觉搜索查询，其中，该系统包括处理装置，其用于对从所述数字图像信息和数字深度信息提取的局部描述符进行处理，包括：(i)通过将从所述数字图像信息和数字深度信息提取的局部描述符聚合成所述图像的全局编码来进行全局编码，和(ii)散列所述图像的所述全局编码；其中，该系统被配置成用于根据本文中所公开的方法从所述全局编码和所述散列的结果生成所述视觉搜索查询。在实施例中，该系统包括多个融合模块，其可选择性地可激活用于通过以下各项中的任一项来融合所述图像的所述外观描述和所述形状描述：在所述全局编码和所述散列处理之前，融合从所述数字图像信息和数字深度信息中提取的局部描述符；在所述全局编码之后和在所述散列处理之前，融合从所述数字图像信息和数字深度信息中提取的局部描述符；在所述全局编码和所述散列处理之后，融合从所述数字图像信息和数字深度信息中提取的局部描述符。在实施例中，该系统包括图像捕获设备，其被配置成用于获取作为数字图像信息和数字深度信息两者的图像。在实施例中，所述图像捕获设备被配置成获取作为颜色图像信息和数字深度信息两者的所述图像。在实施例中，该图像是RGB-D图像。

一个或多个实施例可以涉及一种系统和设备(例如，配备有图像捕获设备(例如，RGB-D相机)的移动通信设备(诸如智能电话、平板电脑等))、以及计算机程序产品，该计算机程序产品可加载到至少一个处理设备的存储器中并且包括用于当该产品在至少一个计算机上运行时，执行本文中所公开的方法的一个或多个的步骤的软件代码部分。如本文中所使用的，对这样的计算机程序产品的引用被理解为等同于对包含用于控制处理系统以便根据一个或多个实施例协调方法的实现方式的指令的计算机可读介质的引用。对“至少一个处理器设备”的引用旨在突出要以模块化和/或分布式的形式实现的一个或多个实施例的可能性。

一个或多个实施例可以准许例如在移动设备中集成深度传感。

一个或多个实施例可以准许在移动视觉搜索中合并外观和形状信息。

一个或多个实施例可以提供例如能够在中等带宽要求的情况下能够高识别率的RGB-D搜索引擎架构。

一个或多个实施例可以有利地与CDVS(用于视觉搜索的紧凑描述符)管线(pipeline)比较并且有效地有助于移动视觉搜索中的深度和颜色的联合部署。

附图说明

现在参照附图，仅仅通过示例对一个或多个实施例进行描述，其中：

图1和图2是一个或多个实施例在它们可能的使用背景中的示意性功能表示；

图3是一个或多个实施例的示意性表示；

图4是一个或多个实施例的另一示意性表示；以及

图5是一个或多个实施例的又一示意性表示；并且

图6是一个或多个实施例的可能的实现方式的框图示例。

具体实施方式

在随后的描述中，一个或多个具体细节被图示，目的是提供对实施例的示例的深入理解。可以在没有一个或多个具体细节的情况下或利用其它方法、部件、材料等获得实施例。在其它情况下，没有详细图示或描述已知的结构、材料或操作，以使实施例的某些方面不会被模糊。

在本描述的框架中对“一实施例”或“一个实施例”的引用旨在指示关于实施例所描述的特定构造、结构或特点包括在至少一个实施例中。因此，诸如可以存在于本描述的一个或多个点中的“在一实施例中”或“在一个实施例中”之类的短语并不一定是指一个且相同的实施例。而且，特定构造、结构或特点可以以任何适当的方式组合在一个或多个实施例中。

为了方便起见，仅提供本文中所使用的参考文献，因此不限定实施例的保护程度或范围。

在下文中，反复对在该示例性描述的末尾处出现的引用列表中列出的文档做出引用。每个文档被称为在方括号之间指示列表中的对应的编号，例如[X]。

在移动视觉搜索应用中，查询图像可以由移动设备获取，通过Internet发送并且与存储到服务器中的图像的数据库比较，以获得与其内容有关的有意义的信息。

配备有高分辨率相机的移动设备的技术进步和普及已经促进了移动视觉搜索的研究[15，12，21，10]并且推动了应用程序和开发工具(诸如已经在先前提到的商品名为Google Goggles^TM、AmazonFlow^TM、CamFind^TM、Vuforia^TM、WeChat Image Platform^TM的那些)这两者的发展。

移动视觉搜索客户端可以通过无线信道向服务器传送信息，并且搜索引擎可以满足带宽要求，以便减少延迟，降低设备功耗和增强用户体验。

已经在旨在构思紧凑图像描述符或压缩现有描述符的文献[8，9，11，22，32]中提出几种途径。除了解决带宽要求之外，紧凑和二进制描述的研究还由用于处理时下可以包括数百万幅图像的数据库的需求驱动。事实上，以尽可能少的比特编码图像内容的能力已经成为妥善处理存储问题并且准许高效图像匹配的关键因素。

在过去的几年中，经济有效的RGB-D相机(例如，递送颜色和深度信息两者的相机)，诸如例如，商品名为Microsoft Kinect^TM或Creative Senz3D^TM的那些，已经引领新颖的有时是开创性的途径的发展以解决硬视觉问题，像人类姿势识别[29]、SLAM[14]、对象识别[5]、对象检测和语义分割[16])。

出现了朝向传感器不断微型化、3D计算机视觉的进步、专注于移动平台的软件工具的持续发展的趋势以大规模构建用于将深度感测集成到移动设备中的势头。

这些发展的示例是例如商品名为Structure Sensor^TM by Occipital的设备，可以夹持到在最初设计用于iOS设备的同时还可以与Android^TM和Windows^TM OS一起工作的平板电脑上的结构光深度相机。在[33]中，Pelican成像提出了捕获光场并且合成范围图像的相机阵列。相机小到足以被嵌入到智能电话中。在2014年，HTC发布了将主RGB相机与200万像素的深度传感器相结合的HTC One(M8)智能电话，并且提供了双镜头SDK以激励Android上的3D应用程序的发展。谷歌的项目Tango^TM最近开始向专业人士和研究人员推送一种配备有3D感测能力和最新的API的原型平板电脑。

因此，一个或多个实施例可以涉及移动视觉搜索的领域中的可以由例如深度传感在移动设备中的可用性和通过多种计算机视觉任务由RGB-D影像使能的成果支持的颜色和深度的联合部署。

一个或多个实施例可以准许合并由颜色和深度信道提供的贡献，并且将它们编码在紧凑二进制代码中。

因此，一个或多个实施例可以提供适用于配备有RGB-D相机的移动设备的视觉搜索引擎。

在过去几年内，对象识别研究已经产生了利用RGB-D传感的大量工作[23，5，34，2，31，27，16]。

这些提议依靠可能不适合于移动视觉搜索的计算流，因为RGB图像和深度图像被编码成很长的表示：例如，在[31](R.Socher，B.Huval，B.Bhat，C.D.Manning和A.Y.Ng，Convolutional-RecursiveDeep Learning for 3D Object Classification，Advances in NeuralInformation Processing Systems，1–9页，2012)中，Socher等人在stack a recursive neural network on a layer of CNN to build a featurevector of 32,000elements，而在[5](L.Bo，X.Ren和D.Fox，Unsupervised feature learning for rgb-d based object recognition，International Symposium on Experimental Robotics，1–15页，2012)中，所得描述符具有多达188,300个维度。然后，这种丰富的描述可以馈送分类器，诸如根据任务来识别与图像内容相关联的对象类别或实例的SVM或Random Forest^TM。

在移动视觉搜索场景中，描述的紧凑性可以表示关键因素。更进一步地，分类器仅限于识别学过的类别，并且可能需要昂贵的训练过程来与新类别一起工作。相反，视觉搜索引擎(例如，用于移动应用程序)应该具有很高的灵活性，以使能够方便并且快捷地更新图像的数据库以由应用程序进行无缝处理。

因此，如由在Compact Descriptors for Visual Search(CDVS)[1](ISO/IEC JTC 1/SC 29/WG 11，Information technology Multimediacontent description interface-Part 13:Compact descriptors for visualsearch(2014))内建立的引用架构证明的，处理将查询匹配到候选图像数据库中的相似性搜索途径可能比训练的分类器更适合于移动视觉搜索场景，现在被认为是变成MPEG-7标准的一部分。

在图1中例示适用于一个或多个实施例的视觉搜索引擎的整体架构。

在一个或多个实施例中，可以在客户端C处从一对RGB图像和深度图像(分别表示为RGB和D)中提取一组块(patch)并且进行描述。应当理解，在一个或多个实施例中，前述内容还可以被视为从(单个)RGB-D图像中提取的局部描述符，也就是说，包括RGB图像(即，数字颜色图像)和深度信息D(即，与图像相关联的深度映射图)的图像信息。

还有，尽管在下文中，当获取用作用于生成视觉搜索查询的基础的图像(例如，RGB-D)时，深度信息(深度信道)将被假定为通过直接获得该图像得到，在一个或多个实施例中，深度信息可以例如借助于应用于例如借助于安装在移动设备中的RGB相机从不同视点获得的两个或多个图像的立体匹配过程“间接”获取。

类似地，在该具体描述中对RGB颜色图像的引用仅是通过示例的方式。一个或多个实施例可以实际上涉及使用不同的颜色空间。比如，在一个或多个实施例中，可以考虑使用YUV空间，其中(仅)例如，Y成分用于提取例如基于外观的特征。

这另外解释的是，尽管可以通过从颜色图像(例如，RGB，如本文中通过示例所考虑的)开始来方便实现一个以上的实施例，某些实施例可以使用非颜色图像，例如，灰度图像。

在一个或多个实施例中，如例如在[3,4](L.Bo，X.Ren和D.Fox.Kernel descriptors for visual recognition，Advances in NeuralInformation Processing Systems 23，1–9页，2010；L.Bo，X.Ren和D.Fox，Depth kernel descriptors for object recognition.IntelligentRobots and Systems，2011)中所描述的所谓的RGB-D核描述符可以用于这一目的，因为这些描述符可以通过多种RGB-D识别任务来实现竞争结果。

核描述符是基于取向直方图(诸如SIFT和HOG)的描述符的一般化，其可能存在例如由于像素混合(binning)而导致的量化误差。核描述符可以借助通过核函数(称为匹配核)限定两个块之间的相似性来克服这个问题，该核函数通过两个块内的所有对的像素属性之间的连续相似性进行平均。

可以通过限定用于不同块属性(如强度和深度梯度、颜色和对象大小)的匹配核来设计一定数量(例如，8种类型)的核描述符。

在一个或多个实施例中，搜索引擎的局部描述阶段10可以部署基于网格的检测以从可以例如由200维描述表示的图像中获得一组块。在随后的全局编码阶段12中，在10获得的局部描述符还可以聚合到整个图像的全局编码。

对于在12的全局编码，在一个或多个实施例中，可以考虑各种途径，以便“压缩”先前通过图像局部提取的信息。

这些途径可以包括例如被称为VLAD的技术。参见[20](H.Jegou，M.Douze，C.Schmid和P.Perez.Aggregating local descriptorsinto a compact image representation.Conference on Computer Visionand Pattern Recognition，2010)。还有，在训练时间，在从训练数据库中提取的局部描述符的空间中经由k-均值聚类学习一组N_C视觉单词。对于每个局部描述d，在长度D的编码时间，发现最近的视觉单词c_i并且计算向量d-c_i，并且关联到c_i。因此，对于每个视觉单词c_i时，所关联的向量d-c_i被相加以形成向量e_i。最后，并列(juxtapose)所有的e_i’s以形成图像的全局D×N_C维表示。

另一种可能的途径是费舍尔核。在[19](T.Jaakkola和D.Haussler，Exploiting generative models in discriminative classifiers,Advances in Neural Information Processing Systems，1999)中，Jaakkola和Haussler介绍费舍尔核，目的是将判别分类器的能力与生成模型的能力结合起来以处理包括可变数量的测量样品的表示。编码向量是相对于生成模型的参数的对数似然性的样品梯度，并且直观地，可以看出，该参数有助于样本的生成。在[28](F.Perronnin和C.Dance，Fisher kernels on visual vocabularies for image categorization,Conference on Computer Vision and Pattern Recognition，2007)中，Perronnin等人通过用高斯混合模型(GMM)建模视觉词汇将Fisher核应用于图像分类。在一个或多个实施例中，对于混合的N_G成分的每个成分，协方差矩阵(假设为对角线)的平均值和元素可以用作参数。因此，全局编码的长度是2×D×N_G。

还有另一可能的途径是高效匹配核或EMK。参见[6](L.Bo和C.Sminchisescu,Efficient match kernel between sets of features forvisual recognition,Advances in Neural Information ProcessingSystems，1–9页，2009)。与在开发匹配核以克服由于取向直方图描述符中的像素混合而导致的潜在描述性损失的核描述符类似，高效匹配核(EMK)可以概括单词袋(bag-of-word)聚合方案以抵消像素混合误差。该方法特别适用于将局部核描述符聚合成图像级表示。EMK是可以在任何类型的局部描述符上而不是仅在核描述符上训练的通用方法。

不像VLAD和Fisher核，EMK可以通过使用如例如由Lazebnik等人在[24](S.Lazebnik，C.Schmid和J.Ponce，Beyond bags offeatures:Spatial pyramid matching for recognizing natural scenecategories,Conference on Computer Vision and Pattern Recognition，2006)中所公开的空间金字塔执行编码来将空间信息考虑在内。图像在三个抽象级别上以1×1、2×2和4×4子区域进行细分并且它们每个分别进行编码。EMK在第三级以4×4子区域细分图像；在基于形状的核描述符的情况下，金字塔的第三级可以以3×3子区被划分。最终的描述包括所有编码的串联(concatenation)。对于基于外观信息的局部描述，单个编码可以是例如500维，因此图像用长度为(1+4+16)×500＝10500的描述符表示，而当单个编码可能是1000维时，通过编码形状信息，描述的长度达到14000。

一个或多个实施例可以考虑到，在12获得的全局描述可能需要大带宽以被发送到服务器侧S处的数据库。

因此，一个或多个实施例可以提供进一步的压缩，例如，如图1所例示的。比如，可以在14首先应用主成分分析(PCA)，以便过滤出相关成分并且在16加快执行后续的计算，其在一个或多个实施例中可以包括旨在产生要发送到服务器S的最终紧凑二进制描述BD(例如，支持视觉搜索查询VSQ)的保持相似性的散列阶段。

可以在一个或多个实施例中考虑各种途径用于在16(例如，二进制)散列。

这些可能包括例如被称为局部敏感散列(LSH)(参见[18](P.Indyk和R.Motwani，Approximate nearest neighbors:towards removingthe curse of dimensionality,Proceedings of the thirtieth annual ACMsymposium on Theory of computing，604–613页，1998))或球形散列(SH)(J.-P.Heo，Y.Lee，J.He，S.-F.Chang和S.-E.Yoon，Sphericalhashing,Conference on Computer Vision and Pattern Recognition，2957–2964页，2012))的基线途径，其可能对大数据集有效。

如果N_b是包括二进制描述的比特数，则局部敏感散列可以通过在描述空间中创建一组N_b随机超平面来定义散列函数。然后，为了执行新的描述符的散列，如果描述处于所相关联的超平面的正半空间，则可以标记二进制码的每个比特为例如1，否则，为0。相反，球形散列可以使用一组Nb超球表示数据并且根据描述是在第i个超球内部还是外部来选择第i个比特的值。在一个或多个实施例中，为了确定超球的中心和半径，可以执行迭代优化过程，以便实现每个散列函数的描述的均衡分区以及任何两个散列函数之间的独立性。

更进一步地，可以在非常适合于这个编码方案的Hamming空间中采用通过在两个字符串之间等于1的对应的比特数归一化标准Hamming距离的距离(诸如球形Hamming距离)。对应的比特(例如，设定为1)表示两个描述在相同的超球内部，因此表示在特征空间中靠近的两个点的较高似然性。

在一个或多个实施例中，就所涉及的服务器侧S而言，对于表示构成数据库的对象的每个图像，可以计算二进制描述BD，并且可以借助于在[26](Q.Lv，W.Josephson，Z.Wang，M.Charikar和K.Li，Multi-probe LSH:efficient indexing for high-dimensional similaritysearch,International Conference on Very Large Data bases，2007)中提出的多探头LSH方案(mpLSH)构建相似性指数：给定包括在视觉搜索查询VSQ中的图像，从客户端C接收的二进制代码在服务器S处与数据库DB匹配，以产生返回给客户端设备C的视觉搜索结果VSR。这可能根据广泛多种可能的方法中的其中一个发生：例如，通过应用如在[13](S.A.Dudani，The Distance-Weightedk-Nearest-Neighbor Rule,Transactions on Systems,Man,andCybernetics，325–327页，1976)中所描述的加权k-NN搜索。

通过示例，数据库DB在图中被例示为一组二进制描述Obj 0、View 0、…、Obj N、View N，其中，Obj i、View j表示第i个对象的第j视图。

否则，应当理解，一个或多个实施例可以很大程度上与响应于视觉搜索查询VSQ产生视觉搜索结果VSR所采用的途径无关。

图2的框图是将结合图1所讨论的处理布局扩展到可以从深度感测能力获益的视觉搜索引擎架构的可能性的示例，再次从客户端侧C处的RGB和深度信息(再次分别表示为RGB和D)开始。

从客户端C发送到服务器S的描述的紧凑性可以是用于移动视觉搜索架构的资产，因为这可能甚至在有限带宽或网络拥塞的情况下提供满意的用户体验。

在这方面，应该观察到的是，二进制码的研究不限于移动视觉搜索，但涵盖了基于内容的图像检索的整个领域。比如，紧凑描述符和二进制描述符可以起到准许高效存储并且匹配包括例如数百万幅图像的数据库的显著作用。这也许可以解释为什么，如上所述，在文献中已经提出了旨在无论是构思紧凑图像描述符还是压缩现有的描述符的几种途径，参见例如，[8,9,11,22](M.Calonder，V.Lepetit，C.Strecha和P.Fua，Brief:Binary robust independent elementaryfeatures,European Conference on Computer Vision，2010；V.Chandrasekhar，M.Makar，G.Takacs，D.Chen，S.S.Tsai，N.-M.Cheung，R.Grzeszczuk，Y.Reznik和B.Girod，Survey of SIFTcompression schemes,International Conference on Pattern Recognition，2010；V.Chandrasekhar，G.Takacs，D.M.Chen，S.S.Tsai，Y.Reznik，R.Grzeszczuk和B.Girod，Compressed Histogram of Gradients：ALow-Bitrate Descriptor,International Journal of Computer Vision，2011；M.Johnson,Generalized Descriptor Compression for Storage andMatching,British Machine Vision Conference，23.1–23.11页，2010)。

还有，应当注意，紧凑表示的研究迄今主要解决了RGB图像，同时调查深度信息的紧凑描述，例如，在侧重于3D点云的[37](Malaguti,F.,Tombari,F.,Salti,S.,Pau,D.,Di Stefano,L,TowardCompressed 3D Descriptors,International Conference on 3D Imaging,Modeling,Processing,Visualization&Transmission 176–183(2012年10月))中和处理RGB-D图像的[38](Nascimento,E.R.,Oliveira,G.L.,Campos,M.F.M.,Vieira,A.W.,Schwartz,W.R.,BRAND:A robustappearance and depth descriptor for RGB-D images,InternationalConference on Intelligent Robots and Systems 1720–1726(2012年10月))中。然而，这两种均在没有解决获得图像的紧凑全局表示的问题的情况下提出局部描述符。

因此，一个或多个实施例可以通过编码外观信息和深度信息(例如，通过生成表示外观的二进制代码和表示深度或形状的二进制代码)获得紧凑二进制码以描述RGBD图像来处理视觉搜索场景。

一个或多个实施例可以提供允许通过可能求助不同图像描述途径来利用例如颜色数据和深度数据的视觉搜索管线。

如图2所例示的，在一个或多个实施例中，如例如由移动设备获取的RGB-D图像(例如，包括RGB信息和深度信息D的图像信息)可以在被配置成独立地处理(分别在20和22)客户端侧C处的外观信道和形状信道的管线中进行处理，以便产生(例如，分别在16₂₀和16₂₂)可以在24被串联并且作为视觉搜索查询VSQ发送到服务器S的紧凑二进制代码BD_A(外观)和BD_S(形状)。

在一个或多个实施例中，每个二进制码BD_A，BD_S因此可以获得作为首先计算整个图像的全局编码然后通过保持相似性的散列阶段创建二进制描述的两步过程的结果。

再次，在服务器侧S，所接收的(多个)二进制代码可以与描述的数据库DB匹配，以便找到最类似的图像并且提供视觉搜索结果VSR以返回给客户端C。

在一个或多个实施例中，可以通过聚合如前面所例示的局部特征进行RGB图像和深度(D)图像的全局编码。因此，可以首先提取并描述局部特征(参见例如，图1中的方框10)，然后进行全局编码(参见例如，图1中的方框12)，比如通过使用先前已经讨论过的Fisher核程序[28](F.Perronnin和C.Dance,Fisher kernels onvisual vocabularies for image categorization.Conference on ComputerVision and Pattern Recognition,2007)。

还有，在一个或多个实施例中，还可以采用基于深神经网络的途径，以便解决手工得到的和学习过的特征。

在一个或多个实施例中，SIFT[36](Lowe,D.G.,Distinctive imagefeatures from scale-invariant keypoints,Int.J.Comput.Vision 60(2),91–110(2004年11月))(而特征可能通过OpenCV实现方式计算)可以用作基线局部描述途径，其可以通过高斯差(DoG)检测关键点并且产生长度为D(例如，D＝128)的描述。

在一个或多个实施例中，SIFT可以在不进行任何预处理的情况下应用在强度图像上，而深度图像例如在保留用于表示无效深度的0值的[1，255]范围中重新调节。

在一个或多个实施例中，属于所搜索的对象的隔离深度可以例如通过将数据库图像的深度分布建模为高斯、通过在来自高斯均值的小于2×σ内线性重新调整深度、以及使其它处理饱和来进行处理。

Fisher核方法(例如，实现方式在VLFeat库中可用)可以应用于将SIFT特征聚合成整个图像的全局表示。

在一个或多个实施例中，SIFT描述符可以通过规则网格采样的16×16块上计算，因为特征的均匀采样可能比在视觉搜索应用中的关键点检测证明是更为有效。在一个或多个实施例中，经由Fisher核途径聚合密集计算的描述符，而发现N_G＝1对于成分的数量是充足的选择，RGB图像和深度图像两者的全局编码的长度均为2×D。

在一个或多个实施例中，在[3，4](L.Bo，X.Ren和D.Fox,Kerneldescriptors for visual recognition,Advances in Neural InformationProcessing Systems 23，1–9页，2010；L.Bo,X.Ren和D.Fox,Depthkernel descriptors for object recognition,Intelligent Robots and Systems,2011)中介绍的RGB-D核描述符可以提供良好的结果。

比如，8种类型的核描述符可以通过定义不同的块属性(诸如强度梯度和深度梯度)的匹配核、局部二进制模式和对象大小加以考虑。所有八种类型的核描述符可以例如在C++中实施。在C++实现方式中应用4种类型的核描述符可以提供令人满意的结果。

通过采用这样的途径，外观信息(参见例如，图2中的方框20、16₂₀和BD_A)可以通过处理强度梯度和颜色的核来描述，而形状信息(参见例如，图2中的方框22、16₂₂和BD_S)可以基于深度梯度和旋转(spin)图像(参见[39](E.Johnson,M.Hebert,Using SpinImages for Efficient Object Recognition in Cluttered 3D Scenes,IEEETRANSACTIONS ON PATTERN ANALYSIS AND MACHINEINTELLIGENCE,VOL.21,NO.5；1999年5月))借助于核得以捕获。

在[16](S.Gupta，R.Girshick，P.Arbel和J.Malik,Learning RichFeatures from RGB-D Images for Object Detection and Segmentation,European Conference on Computer Vision，1–16页，2014)中，Gupta等人通过应用处理256×256的RGB图像并且能够产生4096维的特征向量作为最后隐藏层的输出的如在[35](Krizhevsky,A.,Sutskever,I.,Hinton,G.E,ImageNet Classification with Deep ConvolutionalNeural Networks,Advances In Neural Information Processing Systems1–9(2012))中所提出的所谓的“AlexNet”来解决通过卷积神经网络(CNN)架构全局编码RGB-D图像的问题。除了描述RGB图像之外，作者在[16](S.Gupta，R.Girshick，P.Arbel和J.Malik,LearningRich Features from RGB-D Images for Object Detection andSegmentation,European Conference on Computer Vision，1–16页，2014)中部署被指定为HHA的表示以将深度图像映射到三个信道中：水平差别(disparity)、高于地面的高度、以及局部表面法线和所推断的重力方向之间的角度。因此，AlexNet还可以用HHA表示馈送，如同RGB图像一样。这样的途径基于RGB图像和深度图像D可以由于例如与RGB图像中的对象边界相对应的差别边缘来共享共同结构的假说。而且，可以基于HHA数据执行AlexNet的微调。

在一个或多个实施例中，满意的结果可以通过利用例如由RGB网络和HHA网络两者计算的4096维向量的100个主要成分馈送散列阶段16₂₀，16₂₂来实现。如先前已经指示的，球形散列(SH)方法[17](J.-P.Heo，Y.Lee，J.He，S.-F.Chang和S.-E.Yoon,Sphericalhashing,Conference on Computer Vision and Pattern Recognition，2957–2964页，2012)可以应用于一个或多个实施例中，例如，当处理大数据集时。

在一个或多个实施例中，迭代过程可以应用于大约1％的训练样本，发现这样的百分比在训练SH程序中是足够的。在一个或多个实施例中，未发现应用在[17](J.-P.Heo，Y.Lee，J.He，S.-F.Chang和S.-E.Yoon,Spherical hashing,Conference on Computer Vision andPattern Recognition，2957–2964页，2012)中提出的球形散列距离以在标准的Hamming距离内提供明显改善。

如图2所例示的，在一个或多个实施例中，可以在24并列外观二进制代码BC_A和形状二进制代码BC_S以形成最终二进制代码。这可以包括在发送到服务器S的视觉搜索查询VSQ中以匹配所存储的二进制码的数据库DB。

在一个或多个实施例中，这可以与如在[13](S.A.Dudani,TheDistance-Weighted k-Nearest-Neighbor Rule,Transactions on Systems,Man,and Cybernetics，325–327页，1976)中所描述的加权k-NN搜索途径一起例如基于Hamming距离。在一个或多个实施例中，可以通过求助在[26](Q.Lv，W.Josephson，Z.Wang，M.Charikar和K.Li,Multi-probe LSH:efficient indexing for high-dimensional similaritysearch,International Conference on Very Large Data bases，2007)中所提出的多探头LSH方案索引服务器侧数据库DB来加快搜索k-NN。

因此，一个或多个实施例可以涉及将二维紧凑视觉描述符和三维紧凑视觉描述符组合成单个查询用于视觉搜索目的(参见例如，图1和图2中的VSQ)。

图3至图5是可以基于在前述中例示的原则操作的不同的可能架构的示例，其具有图1和图2先前所讨论的处理类型的不同组合方式。

假设图3至图5的示例性实施例在RGB图像(左侧)和深度图像D(右侧)上操作。

在图3至图5中，方框10是正在被用于两个图像(RGB，D)的局部描述符提取且描述的一组块的示例。应当理解，在整个图3至图5中，图1和图2的相同编号已经被故意保留用于在前述详细所讨论的可能的实现特征的直接引用。

比如，在一个或多个实施例中，例如，可以使用4种类型的核描述符(局部描述阶段)，诸如强度梯度、颜色、深度梯度、旋转图像：参见例如，[3,4](L.Bo，X.Ren和D.Fox，Kernel descriptorsfor visual recognition,Advances in Neural Information ProcessingSystems 23，1–9页，2010；L.Bo，X.Ren和D.Fox，Depth kerneldescriptors for object recognition,Intelligent Robots and Systems，2011)；对于全局编码，可以使用Fisher核(全局描述)：参见例如，[19，28](T.Jaakkola和D.Haussler,Exploiting generative modelsin discriminative classifiers,Advances in Neural Information ProcessingSystems,1999；F.Perronnin和C.Dance，Fisher kernels on visualvocabularies for image categorization,Conference on Computer Visionand Pattern Recognition，2007)；对于散列，例如，二进制散列，可以使用散列球(SH)：参见例如，[5](L.Bo，X.Ren和D.Fox,Unsupervised feature learning for rgb-d based object recognition,International Symposium on Experimental Robotics，1–15页，2012)。

继局部描述方框10之后，在图3至图5中例示的可能的处理管线的各阶段可以在很大程度上对局部描述类型“不可知”(agnostic)。因此。它们可以在形状(深度图像)的情况下并且在基于外观(RGB图像)的局部描述的情况下令人满意地操作。

从局部描述(方框10)开始，在图3至图5中例示的处理管线可以在应用融合、编码和散列中所采用的顺序另有不同。

在如图3例示的一个或多个实施例中，局部融合100应用于方框10的局部描述，随后全局编码120和全局编码结果的二进制散列160。也就是说，在如图3例示的一个或多个实施例中，计算并且并列与RGB和深度图像中的块相对应的局部描述符(例如，即使在先前没有对二进制代码进行压缩的情况下)，以使外观和形状信息可以融合，例如，如100所指示的。比如，因此，Fisher核可以在图像块的外观和形状描述的串联上训练。

在如图4例示的一个或多个实施例中，全局编码12应用于方框10的局部描述，随后在200融合全局编码结果并且在200二进制散列260融合结果。也就是说，在如图4所例示的一个或多个实施例中，在12分别计算外观和形状的局部描述符，然后在被递送到散列阶段260之前，在200串联。

在如图5所例示的一个或多个实施例(其基本上与图1和图2的布局的直接融合相对应)中，全局编码12应用于方框10的局部描述，随后二进制散列16局部融合结果并且在24并列或串联(即，融合)散列结果。也就是说，在如图5所例示的一个或多个实施例中，独立计算(在12和16)用于RGB图像和深度图像D的二进制代码以仅在匹配阶段之前在24最终融合。

不管特定解决方案考虑了什么，图3至图5所例示的一个或多个实施例都依靠通过以下来生成用于视觉搜索的查询VSQ的公共原理：获取用来生成视觉搜索查询的作为数字图像信息(例如，颜色信息(诸如RGB))和与其相关联的数字深度信息D的输入图像，并且从数字颜色信息RGB和数字深度信息D中提取(例如，在10；10a，10b(参见图6))传达(例如作为二进制代码)图像的外观描述(例如图2的20和BD_A)和形状描述(例如，图2的22和BD_S)的局部描述符。可以通过融合表示图像的外观描述的二进制代码和表示图像的形状描述的二进制代码(例如，在100；200；24)来生成视觉搜索查询VSQ。

可以对从数字图像信息(例如，RGB)和数字深度信息D中提取的局部描述符进行处理，包括：

i)通过将从数字图像信息(例如，RGB)和数字深度信息(D)中提取的局部描述符聚合成图像的全局编码进行全局编码(例如，在12；12a，12b；120)，和

ii)散列(例如，在16；16a，16b；160进行二进制散列)图像的全局编码(12；12a，12b；120)。

可以从应用于从数字图像信息RGB和数字深度信息D中提取的局部描述符的全局编码和二进制散列的结果生成视觉搜索查询VSQ。

再次强调的是，对所获取的RGB-D图像的引用仅仅是通过示例的方式，并且为了便于解释。如所指示的，在一个或多个实施例中，可以例如从两个或多个图像“间接”获取深度信息，该图像从不同视点获得。类似地，颜色图像而非RGB(例如，YUV)和甚至非颜色图像(例如，灰度等级的数字图像信息)可以用于一个或多个实施例。

图6示出了结合图3至图5所例示的各种处理方框如何被组合成系统600中的灵活架构，其中，灵活性例如经由被配置成将各种处理资源互联以便实现图3至图5所例示的各种管线架构的矩阵BM来实现。图6的系统600包括数字图像处理电路装置，其被图示为数字图像处理器P、存储器M和分立电路装置DC，其单独或以各种组合实现本文中所公开的一个或多个方法。如所图示的，图6的系统包括一个或多个数字图像捕获设备602(例如，相机)，其可以捕获数字图像以由系统600进行处理。

在图6的框图中，被配置成用于在并列/融合RGB信息和D信息之后进行操作的这些方框已经用如已经在图3至图5中出现的相同的附图标记标注。相反，被配置成用于并列/融合之前分别对RGB信息和D信息进行操作的这些方框已经用如已经在图3至图5中出现的相同的附图标记标注，针对2D和3D处理分别标有后缀“a”和“b”：例如，在图6的框图中，2D局部描述和3D局部描述分别被标注10a和10b。

再次，在如根据图6的示例性框图可能实现的图3至图5的架构的任一种中，索引服务器数据库DB并且使搜索过程能够响应于2D/3D视觉搜索查询VSQ可以涉及例如多探头LSH[26](Q.Lv，W.Josephson，Z.Wang，M.Charikar和K.Li，Multi-probe LSH:efficient indexing for high-dimensional similarity search,InternationalConference on Very Large Data bases，2007)和用于描述符匹配的加权k-NN分类器[13](S.A.Dudani，The Distance-Weightedk-Nearest-Neighbor Rule,Transactions on Systems,Man,andCybernetics，325–327页，1976)。

在一个或多个实施例中，在形成视觉搜索查询VSQ中二进制代码(例如，图2中的BD_A和BD_S)的分配可以是固定的，例如比方说分配给形状1/4的二进制代码并且分配给外观3/4的二进制代码。

一个或多个实施例例如在散列融合的情况下可以提供用于使得二进制码分配给外观和形状动态可变(例如，通过增加分配给外观的二进制代码的数量和减少分配给形状的二进制代码的数量，反之亦然)。

在一个或多个实施例中，这可以发生，例如作为来自服务器S的反馈函数。

比如，由客户端C采用第一分配以形成发送到服务器S的查询VSQ。该服务器执行搜索并且产生一定的识别评分。

该信息可以指示所检索的图像的数量可以增加，例如，因为由服务器检索引擎计算的相关联的“成功”评分可能低于一定的阈值。

该信息可以反馈给客户端C，其中，可以修改外观和形状代码分配并且形成修改的查询VSQ。

另外或作为前述的替代，在一个或多个实施例中，作为可用于客户端C和服务器S之间通信的带宽函数，二进制代码分配给外观和形状可以动态变化。也就是说，一个或多个实施例可以提供在生成视觉搜索查询VSQ中选择性地变化图像的外观描述和形状描述的各自的量(例如，分配给它们的二进制码BD_A，BD_S)。

一个或多个实施例的各种实验研究已经通过使用例如RGB-D对象数据集[23](K.Lai，L.Bo，X.Ren和D.Fox，A large-scalehierarchical multi-view rgb-d object dataset，International Conference onRobotics and Automation，1817–1824页，2011)执行用于评价并比较依靠RGB-D传感的视觉识别系统的事实(de-facto)标准。对于包括在数据集中的300种家用物品的每一种，已经从不同的有利点收集一组获取物并且从背景中分割出来，以便采集总共41,877幅RGB-D图像，而每种物品基于WordNet层次属于51个类别之一。

测试分析显示，假如足够描述长度部署在散列过程内，则识别率没有损失并且运用近似的mpLSH索引方案得以大约10×加速，而非穷举搜索。

发现考虑全局编码、EMK和Fisher核的三种示例性方法是特别有效的，而EMK能够通过聚合金字塔子区域中的局部特征并且并列每个子区域的编码来合并空间信息，而Fisher核和VLAD不会依赖于有关局部特征位置的信息。Fisher核可能推测在涉及RGB-D传感器的面内旋转和距离变化同时捕获对象的场景中产生比EMK更好的结果。

发现形状信息和外观信息分别有助于识别能力，而它们的协同效应提高了整体性能。在实例识别(instance recognition)的情况下，发现外观信息向识别能力提供更大的贡献而形状证明具有更有限的描述能力。相反，在类别识别中，发现形状特征在辨别包括数据集的类别中更有效。在类别识别场景中，RGB信息和深度信息两者均可以尤其有助于确认哪个查询对象属于该类。在实例识别任务中，外观特征(像纹理和颜色)可以方便告知将存储在数据库中的特定对象实例分开，而深度提供了具有信息性但有限的贡献。

还有，沿着识别管线(参见例如，图5)保持处理两个信息流程尽可能不相交可以表示有效的策略，而散列融合(在24)可能允许服务器分别匹配两个描述，其可能方便解决其中两个描述中只有一个可以在查询图像或某些数据库对象中可用或者其中外观或形状可能不被视为足够可靠(例如，当获取透明对象时和/或如果RGB图像在低照明条件下被捕获)的应用场景。还有，在散列融合的情况下，该可能性可以存在使得到外观和形状的二进制码分配动态可变。

至少在某些情况下，发现部署所有可用核描述符而非仅强度和深度梯度匹配核提高识别率。

还可以进行与处理RGB图像(诸如例如(CDVS)[1](ISO/IECJTC 1/SC 29/WG 11,Information technology Multimedia contentdescription interface-Part 13：Compact descriptors for visual search(2014)))的搜索引擎的比较，其中，描述可以通过发送给服务器富集(enrich)，除了所压缩的全局编码之外，局部SIFT描述符的压缩版本以及特征坐标的基于直方图的编码借助于[25](S.Lepsoy，G.Francini，G.Cordara，P.Porto和B.de Gusmiio，Statistical modellingof outliers for fast visual search，International Conference onMultimedia and Expo，2011)的DISTAT算法进行几何一致性检查。

根据配备有作为全局编码器的EMK或Fisher核的实施例通过使用管线与CVDS的比较示出了实施例在类别和实例识别这两个任务中的更大的效力。该实施例中也被证明具有降低的带宽要求，其具有在实例识别的情况下与1024字节的二进制代码比较、以及如果应用于CDVS的类别识别则与4K字节比较，通过传送例如1024比特得以达到高识别率。

管线特征是通过Fisher核在图像等级下聚合的密集计算的核描述符，随后发现PCA和球面散列特别有效，而在类别和实例检索实验两者中用512-1024位紧凑的二进制代码来实现满意的识别率。发现保持颜色(RGB)和深度(D)的处理流程分开来串联最终的二进制代码没有惩罚性能，同时可能允许在系统与应用程序水平上实现很大的灵活性。

通过使用CIN 2D+3D数据集[7](B.Browatzki和J.Fischer，Going into depth:Evaluating 2D and 3D cues for object classification ona new,large-scale object dataset,International Conference on ComputerVision Workshops，2011)和BigBIRD数据集[30](A.Singh，J.Sha，K.S.Narayan，T.Achim和P.Abbeel，BigBIRD：A large-scale 3Ddatabase of object instances,International Conference on Robotics andAutomation，509–516页，2014)执行的进一步的实验示出了利用密集计算的局部描述符的方法在一些情况下可以提供比基于SIFT关键点的编码更好的结果，而由基于核描述符和深特征(deep feature)的表示提供特别满意的性能。在CIN 2D+3D的情况下，发现令人满意的识别率通过分配给形状1/4的二进制代码来实现，而发现1/8的比率对于RGB-D对象数据集以及BigBIRD两者均是令人满意的。

然而，正如所指示的，一个或多个实施例可以提供使得二进制码分配到外观和形状动态可变，例如，作为来自服务器S的反馈函数和/或可用于客户端C与服务器S之间的通信的带宽函数。

紧跟球面散列(SH)，发现基于核描述符或深特征的途径以提供有效的和紧凑的图像编码。通过卷积神经网络计算的深特征可以方便表示外观，而发现核描述符方便捕获形状信息。

根据实施例的架构可以端接在配备商品名为StructureSensor^TM的传感设备的Samsung^TM Galaxy Tab Pro 10.1^TM上用于获取深度图像。部署四种类型的核描述符和在RGB-D对象数据集上训练的管线可能平均需要550毫秒用于产生二进制代码并且需要2毫秒进行匹配。

一些实施例可以采取计算机程序产品的形式或包括计算机程序产品。例如，根据一个实施例，提供了一种包括适于执行上文所描述的方法或功能的一个或多个的计算机程序的计算机可读介质。该介质可以是物理存储介质(参见图6中的存储器M)，诸如例如，只读存储器(ROM)芯片、或者盘(诸如数字通用盘(DVD-ROM)、光盘(CD-ROM)、硬盘)、存储器、网络或要由适当的驱动器或经由适当的连接读取的便携式媒体文章，包括如在一个或多个条形码或存储在一个或多个这样的计算机可读介质上的其它相关的代码编码的并且可以通过合适的读写设备读取的。

更进一步地，在一些实施例中，方法和/或功能性中的一些或所有可以以其它方式被实现或被提供，例如至少部分地以固件和/或硬件，包括但不限于一个或多个应用专用集成电路(ASIC)、数字信号处理器、分立电路装置、逻辑门、标准集成电路、控制器(例如，通过执行适当的指令，并且包括微控制器和/或嵌入式控制器)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)等，以及采用RFID技术的设备，以及它们的各种组合。参见例如，图6中的处理器P和分立电路装置DC。

引用列表

[1]ISO/IEC JTC 1/SC 29/WG 11,Information technology Multimediacontent description interface-Part 13:Compact descriptors for visualsearch.(2014).

[2]M.Blum,J.Wulfing和M.Riedmiller.A learned feature descriptorfor object recognition in RGB-D data.International Conference onRobotics and Automation，1298-1303页，2012.

[3]L.Bo,X.Ren和D.Fox.Kernel descriptors for visual recognition.Advances in Neural Information Processing Systems 23,1–9页，2010.

[4]L.Bo,X.Ren和D.Fox.Depth kernel descriptors for objectrecognition.Intelligent Robots and Systems,2011.

[5]L.Bo,X.Ren和D.Fox.Unsupervised feature learning for rgb-dbased object recognition.International Symposium on ExperimentalRobotics,1–15页，2012.

[6]L.Bo和C.Sminchisescu.Efficient match kernel between sets offeatures for visual recognition.Advances in Neural InformationProcessing Systems,1–9页，2009.

[7]B.Browatzki和J.Fischer.Going into depth:Evaluating 2D and 3Dcues for object classification on a new,large-scale object dataset.International Conference on Computer Vision Workshops,2011.

[8]M.Calonder,V.Lepetit,C.Strecha和P.Fua.Brief:Binary robustindependent elementary features.European Conference on ComputerVision,2010.

[9]V.Chandrasekhar,M.Makar,G.Takacs,D.Chen,S.S.Tsai,N.-M.Cheung,R.Grzeszczuk,Y.Reznik和B.Girod.Survey of SIFTcompression schemes.International Conference on Pattern Recognition,2010.

[10]V.Chandrasekhar,G.Takacs,D.M.Chen,S.S.Tsai,M.Makar和B.Girod.Feature Matching Performance of Compact Descriptors forVisual Search.Data Compression Conference,2014.

[11]V.Chandrasekhar,G.Takacs,D.M.Chen,S.S.Tsai,Y.Reznik,R.Grzeszczuk和B.Girod.Compressed Histogram of Gradients:ALow-Bitrate Descriptor.International Journal of Computer Vision,2011.

[12]D.M.Chen,S.S.Tsai,V.Chandrasekhar,G.Takacs,J.Singh和B.Girod.Tree Histogram Coding for Mobile Image Matching.DataCompression Conference,143–152页，2009.

[13]S.a.Dudani.The Distance-Weighted k-Nearest-Neighbor Rule.Transactions on Systems,Man,and Cybernetics,325–327页，1976.

[14]F.Endres,J.Hess,J.Sturm,D.Cremers和W.Burgard.3DMapping with an RGB-D Camera.Transactions on robotics,1–11页，2012.

[15]B.Girod,V.Chandrasekhar,D.M.Chen,N.-M.Cheung,R.Grzeszczuk,Y.Reznik,G.Takacs,S.S.Tsai和R.Vedantham.Mobilevisual search.Signal Processing Magazine,IEEE,(6月):61–76,2011.

[16]S.Gupta,R.Girshick,P.Arbel和J.Malik.Learning RichFeatures from RGB-D Images for Object Detection and Segmentation.European Conference on Computer Vision,1–16页，2014.

[17]J.-P.Heo,Y.Lee,J.He,S.-F.Chang和S.-E.Yoon.Sphericalhashing.Conference on Computer Vision and Pattern Recognition,2957–2964页，2012.

[18]P.Indyk和R.Motwani.Approximate nearest neighbors:towardsremoving the curse of dimensionality.Proceedings of the thirtiethannual ACM symposium on Theory of computing,604–613页，1998.

[19]T.Jaakkola和D.Haussler.Exploiting generative models indiscriminative classifiers.Advances in Neural Information ProcessingSystems,1999.

[20]H.Jegou,M.Douze,C.Schmid和P.Perez.Aggregating localdescriptors into a compact image representation.Conference onComputer Vision and Pattern Recognition,2010.

[21]R.Ji,L.-Y.Duan,J.Chen,H.Yao,J.Yuan,Y.Rui和W.Gao.Location Discriminative Vocabulary Coding for Mobile LandmarkSearch.International Journal of Computer Vision,290–314页，2011.

[22]M.Johnson.Generalized Descriptor Compression for Storage andMatching.British Machine Vision Conference,23.1–23.11页，2010.

[23]K.Lai,L.Bo,X.Ren和D.Fox.A large-scale hierarchicalmulti-view rgb-d object dataset.International Conference on Roboticsand Automation,1817–1824页，2011.

[24]S.Lazebnik,C.Schmid和J.Ponce.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories.Conference on Computer Vision and Pattern Recognition,2006.

[25]S.Lepsoy,G.Francini,G.Cordara,P.Porto和B.de Gusmiio.Statistical modelling of outliers for fast visual search.InternationalConference on Multimedia and Expo,2011.

[26]Q.Lv,W.Josephson,Z.Wang,M.Charikar和K.Li.Multi-probeLSH:efficient indexing for high-dimensional similarity search.International Conference on Very Large Data bases,2007.

[27]T.Nakashika,T.Hori,T.Takiguchi和Y.Ariki.3D-ObjectRecognition Based on LLC Using Depth Spatial Pyramid.International Conference on Pattern Recognition,2014.

[28]F.Perronnin and C.Dance.Fisher kernels on visual vocabulariesfor image categorization.Conference on Computer Vision and PatternRecognition,2007.

[29]J.Shotton,A.Fitzgibbon,M.Cook,T.Sharp,M.Finocchio,R.Moore,A.Kipman和A.Blake.Real-time human pose recognition inparts from single depth images.Computer Vision and PatternRecognition,1297–1304页，2011.

[30]A.Singh,J.Sha,K.S.Narayan,T.Achim和P.Abbeel.BigBIRD:A large-scale 3D database of object instances.International Conferenceon Robotics and Automation,509–516页，2014.

[31]R.Socher,B.Huval,B.Bhat,C.D.Manning和A.Y.Ng.Convolutional-Recursive Deep Learning for 3D Object Classification.Advances in Neural Information Processing Systems,1–9页，2012.

[32]T.Trzcinski,C.Christoudias,P.Fua和V.Lepetit.BoostingBinary Keypoint Descriptors.Computer Vision and Pattern Recognition,2013.

[33]K.Venkataraman,D.Lelescu,J.Duparr,A.McMahon,G.Molina,P.Chatterjee和R.Mullis.PiCam:an ultrathin high performancemonolithic camera array.Siggraph Asia,2013.

[34]K.-T.Yu,S.-H.Tseng和L.-C.Fu.Learning hierarchicalrepresentation with sparsity for RGB-D object recognition.International Conference on Intelligent Robots and Systems,3011–3016页，2012.

[35]Krizhevsky,A.,Sutskever,I.,Hinton,G.E..ImageNetClassification with DeepConvolutional Neural Networks.Advances InNeural Information Processing Systems 1–9(2012)

[36]Lowe,D.G..Distinctive image features from scale-invariantkeypoints.Int.J.Comput.Vision 60(2),91–110(2004年11月)

[37]Malaguti,F.,Tombari,F.,Salti,S.,Pau,D.,Di Stefano,L..TowardCompressed 3D Descriptors.International Conference on 3D Imaging,Modeling,Processing,Visualization&Transmission 176–183(2012年10月)

[38]Nascimento,E.R.,Oliveira,G.L.,Campos,M.F.M.,Vieira,A.W.,Schwartz,W.R..BRAND:A robust appearance and depth descriptor forRGB-D images.International Conference on Intelligent Robots andSystems 1720–1726(2012年10月).

[39]E.Johnson,M.Hebert.Using Spin Images for Efficient ObjectRecognition in Cluttered 3D Scenes.IEEE TRANSACTIONS ONPATTERN ANALYSIS AND MACHINE INTELLIGENCE,VOL.21,NO.5，1999年5月.

在不损害基本原则的情况下，相对于前文仅作为示例所描述的内容，甚至可以明显地改变各个细节和实施例。

上文所描述的各种实施例可以被组合以提供进一步的实施例。如果需要，可以修改实施例的各方面，以采用各种专利、申请和出版物的概念来提供更进一步的实施例。

鉴于上文所详述的描述，可以对这些实施例做出这些和其它的改变。一般而言，在以下的权利要求中，所使用的术语不应被解释为将权利要求限制于在说明书和权利要求书中公开的具体实施例，而是应被解释为包括所有可能的实施例，连同这些权利要求所具有的等同形式的整个范围。因此，权利要求不受本公开的限制。

Claims

1.一种方法，包括：

使用数字图像处理电路装置从与一个或多个数字图像有关的数字图像信息和数字深度信息提取局部描述符，所述局部描述符传达与所述一个或多个数字图像有关的外观描述信息和形状描述信息；

基于所提取的局部描述符使用所述数字图像处理电路装置来生成所述一个或多个数字图像的一个或多个全局表示；

使用所述数字图像处理电路装置来散列所述一个或多个数字图像的所述一个或多个全局表示；以及

基于所散列的一个或多个全局表示使用所述数字图像处理电路装置来生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在所述局部描述符中传达的融合的外观描述信息和形状描述信息。

2.根据权利要求1所述的方法，包括：

融合从所述数字图像信息提取的局部描述符和从所述数字深度信息中提取的局部描述符；以及

基于所融合的局部描述符生成所述一个或多个数字图像的所述一个或多个全局表示。

3.根据权利要求1所述的方法，包括：

融合在所述一个或多个全局表示中包括的外观描述信息和形状描述信息；以及

随后散列所述一个或多个全局表示。

4.根据权利要求1所述的方法，包括：在所述散列所述一个或多个全局表示之后，融合外观描述信息和形状描述信息。

5.根据权利要求1所述的方法，其中，所述数字图像信息包括数字颜色信息。

6.根据权利要求5所述的方法，其中，所述一个或多个数字图像包括RGB-D数字图像。

7.根据权利要求1所述的方法，包括：

选择性地变化在所述视觉搜寻查询的所融合的外观描述信息和形状描述信息中包括的所述外观描述信息和形状描述信息的相应的数量。

8.一种设备，包括：

一个或多个存储器，其在操作中存储数字图像信息；以及

耦合到所述一个或多个存储器的数字图像处理电路装置，其中，所述数字图像处理电路装置在操作中：

从与一个或多个数字图像有关的数字图像信息和数字深度信息提取局部描述符，所述局部描述符传达与所述一个或多个数字图像有关的外观描述信息和形状描述信息；

基于所提取的局部描述符生成所述一个或多个数字图像的一个或多个全局表示；

散列所述一个或多个数字图像的所述一个或多个全局表示；以及

基于所散列的一个或多个全局表示生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在所述局部描述符中传达的融合的外观描述信息和形状描述信息。

9.根据权利要求8所述的设备，其中，所述数字图像处理电路装置在操作中：

融合从所述数字图像信息提取的局部描述符和从所述数字深度信息提取的局部描述符；以及

10.根据权利要求8所述的设备，其中，所述数字图像处理电路装置在操作中：

散列包括所融合的外观描述信息和形状描述信息的所述一个或多个全局表示。

11.根据权利要求8所述的设备，其中，所述数字图像处理电路装置在操作中融合在所散列的一个或多个全局表示中包括的外观描述信息和形状描述信息。

12.根据权利要求8所述的设备，其中，所述一个或多个数字图像包括RGB-D数字图像。

13.根据权利要求8所述的设备，其中，所述数字图像处理电路装置在操作中选择性地变化在所述视觉搜寻查询的所融合的外观描述信息和形状描述信息中包括的所述外观描述信息和形状描述信息的相应的数量。

14.根据权利要求13所述的设备，其中，所述数字图像处理电路装置在操作中响应于视觉搜索响应信号选择性地变化相应的数量。

15.根据权利要求8所述的装置，其中，包括集成电路，所述集成电路包括所述数字图像处理电路装置。

16.一种系统，包括：

一个或多个图像捕获设备，其在操作中捕获数字图像；以及

数字图像处理电路装置，其在操作中：

从与一个或多个所捕获的数字图像有关的数字图像信息和数字深度信息提取局部描述符，所述局部描述符传达与所述一个或多个数字图像有关的外观描述信息和形状描述信息；

基于所散列的一个或多个全局表示生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在所述局部描述符中传达的所融合的外观描述信息和形状描述信息。

17.根据权利要求16所述的系统，其中，所述数字图像处理电路装置在操作中：

18.根据权利要求16所述的系统，其中，所述数字图像处理电路装置在操作中：

19.根据权利要求16所述的系统，其中，所述数字图像处理电路装置在操作中融合在所散列的一个或多个全局表示中包括的外观描述信息和形状描述信息。

20.根据权利要求16所述的系统，其中，所述数字图像处理电路装置在操作中选择性地变化在所述视觉搜寻查询的所融合的外观描述信息和形状描述信息中包括的所述外观描述信息和形状描述信息的相应的数量。

21.一种具有内容的非暂态计算机可读介质，所述内容使数字图像处理电路装置通过以下各项来生成一个或多个视觉搜索查询：

基于所散列的一个或多个全局表示生成一个或多个视觉搜索查询，其中，所述一个或多个视觉搜索查询包括在局部描述符中传达的所融合的外观描述信息和形状描述信息。

22.根据权利要求21所述的非暂态计算机可读介质，其中，所述内容使所述数字图像处理电路装置执行以下各项中的至少一项：

融合从所述数字图像信息提取的局部描述符和从所述数字深度信息中提取的局部描述符；

融合在所散列的一个或多个全局表示中包括的外观描述信息和形状描述信息。

23.根据权利要求21所述的非暂态计算机可读介质，其中，所述内容使所述数字图像处理电路装置选择性地变化在所述视觉搜寻查询的所融合的外观描述信息和形状描述信息中包括的所述外观描述信息和形状描述信息的相应的数量。