CN105009145A - 通过利用特征的空间定位减少对象检测时间 - Google Patents
通过利用特征的空间定位减少对象检测时间 Download PDFInfo
- Publication number
- CN105009145A CN105009145A CN201480010281.7A CN201480010281A CN105009145A CN 105009145 A CN105009145 A CN 105009145A CN 201480010281 A CN201480010281 A CN 201480010281A CN 105009145 A CN105009145 A CN 105009145A
- Authority
- CN
- China
- Prior art keywords
- segment
- image
- feature
- coupling step
- equipment according
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
在一个实例中,一种用于退出对象检测管线的方法包含:在处于所述对象检测管线中时确定图像的第一图块内的特征的数目,其中所述图像由多个图块构成;如果所述第一图块内的特征的所述数目符合阈值,那么使用所述第一图块内的所述特征的至少一子集执行匹配步骤;如果所述匹配步骤的结果指示在所述图像中辨识出对象,那么退出所述对象检测管线;及呈现所述匹配步骤的所述结果。
Description
技术领域
本发明涉及图像处理系统,并且更明确地说,涉及图像中的对象辨识。
背景技术
在计算装置或计算机的上下文中的视觉搜索指代使得计算机或其它装置能够提供一或多个图像中的对象的识别信息的技术。最近对视觉搜索的关注产生了使得计算机能够在多种多样的变化图像条件(包含噪音及照明的变化)下识别被部分遮蔽的对象及/或特征的算法。同时,已经出现包含相机的移动装置,但此类移动装置可能具有有限的用户接口来用于输入文本或以其它方式与移动装置介接。移动装置和移动装置应用程序的开发者已设法利用移动装置的相机来增强与移动装置的用户交互。
为了说明一种增强,移动装置的用户可使用移动装置的相机在于商店购物时俘获给定产品的图像。所述移动装置接着可在用于各种图像的所存档特征描述符内发起视觉搜索算法来基于匹配图像识别产品。在识别对象之后,所述移动装置接着可呈现扩增实境(AR)信息及/或呈现相关非扩增实境应用程序。举例来说,所述移动装置可起始基于因特网的搜索并呈现含有关于所识别商店产品的信息的网页。
发明内容
根据本发明的一种用于退出对象检测管线的方法的实例包含:在处于所述对象检测管线中时确定图像的第一图块内的特征的数目,其中所述图像由多个图块构成;如果第一图块内的特征的数目符合阈值,那么使用第一图块内的所述特征的至少一子集执行匹配步骤;如果所述匹配步骤的结果指示在所述图像中辨识出对象,那么退出所述对象检测管线;及呈现所述匹配步骤的所述结果。
所述方法的实施方案可包含以下特征中的一或多者。如果第一图块中特征的数目不符合阈值,那么从所述图像内的第二图块提取特征。所述图像内的第二图块的位置可基于垂直光栅模式或其它预定搜索模式。所述图像内的所述第一和第二图块的位置可基于对图像的减少取样版本执行的图像分析。如果N个图块中特征的累积数目并不符合阈值,那么从所述图像内的N+1图块提取特征;如果来自N个图块及N+1图块的累积特征的数目符合阈值,那么使用从N+1图块所提取的特征及从N个图块所提取的累积特征执行匹配步骤;及如果使用来自N个图块及N+1图块的累积特征的匹配步骤的结果指示在图像中辨识出对象,那么退出对象检测管线。如果匹配步骤的结果未指示辨识出对象,那么从所述图像内的第二图块提取特征。确定所辨识对象的位姿,及如果所辨识对象的位姿在几何学上不与对象数据库中的信息一致,那么从图像内的第二图块提取特征。可在从第一图块提取特征之前对图像减少取样。匹配步骤可包含将特征子集传输到远程装置及接收来自远程装置的结果。基于第一图块的所提取特征确定位置统计数据,基于所述位置统计数据在图像的较低倍频程版本上检测所提取特征,及基于在图像的较低倍频程版本上检测的特征计算对象的位姿。
根据本发明的一种用于退出对象检测管线的设备的实例包含:存储器单元;处理器,其经配置以执行以下操作:在处于对象检测管线中时确定图像的第一图块内的特征的数目,其中图像可分成多个图块,在第一图块内的特征的数目符合阈值时使用第一图块内的特征的至少一子集执行匹配步骤,在匹配步骤的结果指示在图像中辨识出对象时退出对象检测管线,及将匹配步骤的结果存储在存储器单元中。一种用于退出对象检测管线的设备的实例包含:用于在处于所述对象检测管线中时确定图像的第一图块内的特征的数目的装置,其中所述图像由多个图块构成;用于在第一图块内的特征的数目符合阈值时使用第一图块内的所述特征的至少一子集执行匹配步骤的装置;用于在所述匹配步骤的结果指示在图像中辨识出对象时退出对象检测管线的装置;及用于存储匹配步骤的结果的装置。
根据本发明的一种计算机可读媒体的实例包含:经配置以致使处理器执行以下操作的处理器可执行指令:在处于所述对象检测管线中时确定图像的第一图块内的特征的数目,其中所述图像由多个图块构成;在第一图块内的特征的数目符合阈值时使用第一图块内的所述特征的至少一子集执行匹配步骤;在所述匹配步骤的结果指示在图像中辨识出对象时退出对象检测管线;及存储匹配步骤的结果。
方法的实例可包含:对来自图像的多个空间偏移图块中的第一图块执行特征提取过程;如果特征提取过程提取了任何特征,那么使用第一图块内的特征的至少一子集执行匹配步骤;及在对多个空间偏移图块中的第二图块执行特征提取过程之前确定匹配步骤的结果是否指示在图像中辨识出对象。在一些实施例中,执行所述匹配步骤包括将特征子集传输到远程装置及接收来自所述远程装置的结果。
方法的实例可包含循序分析来自图像的多个空间偏移图块中的一或多个图块。每一图块的所述分析可包含:对所述图块执行特征提取过程;及基于使用所述特征提取过程从图块所提取的任何特征及从任何先前所分析的图块所提取的任何特征确定是否可在图像中辨识对象。所述方法可进一步包含响应于确定可辨识所述对象停止多个空间偏移图块中的任何剩余图块的分析。
在一些实施例中,所述方法进一步包括选择用于循序分析的第一图块。在一些实施例中,第一图块包括在图像的边角处的图块。在一些实施例中,第一图块包括在图像的中心区域中的图块。在一些实施例中,第一图块包括在较高特征区域中的图块。在一些实施例中,第一图块包括在先前辨识对象的区域中的图块。在一些实施例中,所述方法进一步包括将图像变换成本地特征坐标。在一些实施例中,以第一尺度循序分析所述一或多个图块,所述第一尺度不同于图像的原生尺度,并且所述方法进一步包括使用所述原生尺度确定对象的位姿。在一些实施例中,循序分析包括以图像的第一尺度循序分析多个空间偏移图块中的全部图块,并且所述方法随后包括以图像的第二尺度循序分析多个空间偏移图块中的一或多个图块,及当确定可基于从第二尺度下的图块提取的特征辨识对象时停止以第二尺度对多个空间偏移图块中的任何剩余图块的分析。在一些实施例中,第一尺度高于第二尺度。在一些实施例中,针对图像的多个尺度中的一或多个尺度循序执行所述循序分析,并且在辨识对象之后不再分析剩余尺度。在一些实施例中,以从最高尺度到最低尺度的次序分析多个尺度。在一些实施例中,确定是否可辨识对象包括将从图块提取的特征传输到远程装置及从远程装置接收对于是否可辨识对象的指示。
一般来说,本发明描述用于数字图像中的对象识别的技术。这些技术可降低在图像中识别对象的计算复杂度。本发明的技术基于图像的空间分割提供关键点/特征提取。可基于图像内的图块子集进行检测。仅处理图块子集而不是整个图像可降低检测管线的计算需求。所公开的空间分割还可与基于尺度的算法结合。此外,本发明提供用于通过经定位的所检测特征到对象的非减少取样图像的投影来确定所检测对象的位姿的技术。
随图及以下描述中陈述一或多个实例的细节。其它特征、目标及优势将从所述描述及所述图式以及从权利要求书显而易见。
附图说明
图1A为说明其中可应用用于基于空间的特征提取的技术的实例系统的框图。
图1B为具有四个阶的图像金字塔的概念图。
图2为说明以光栅扫描模式处理图像中图块的概念图。
图3为说明根据扩展圈模式处理图像中图块的概念图。
图4为说明用于基于图像的空间处理执行从检测管线提早退出的实例方法的流程图。
图5为说明在尺度及空间图像处理之后的提早退出的概念图。
具体实施方式
一般来说,本发明描述用于图像中的对象识别的技术。这些技术可降低识别图像中的对象的计算复杂度并支持从对象检测管线提早退出。胜于在分析整个图像后提取特征描述符,本发明的技术考虑到检测图块(即,图像的子集)内的特征。在处理每一图块之后,可将所检测特征的数目与阈值进行比较并且接着与对象数据库进行比较。平铺可应用于一或多个八元组。一般来说,每一八元组对应于图像的特定大小(例如,像素分辨率)。针对给定八元组,可将输入图像按比例缩放到与分辨率相关联的大小。本文中所描述的空间分割技术可与如2011年7月28日提交的同在申请中的美国专利申请案第13/193,294号中所描述的基于尺度的特征提取结合。
对于对象辨识,可从训练图像导出特征描述符集合及/或其它区分信息的数据库。接着可从目标图像提取特征描述符并将其用于查询数据库,以评估给定查询图像(即,存储在数据库中的图像)的内容。对于扩增实境或视觉搜索应用程序,客户端(例如,蜂窝电话)可俘获所关注的对象的图像并将其与图像、特征及/或元数据信息的数据库进行比较。此数据库可存储在网络上的服务器上,且可由客户端检索以供本地处理,或替代地,可将查询传输到服务器以使用网络资源来处理。大体上关于用以执行图块内关键点的定位及特征描述符的提取的尺度不变特征变换(SIFT)算法来描述本发明的技术。每一SIFT特征可具有以下属性:2D(x,y)特征位置、检测特征的尺度、由特征邻域中最强的图像梯度的旋转定向所给定的特征的旋转定向及/或以区分方式描述本地像素变化的向量(例如本地图像梯度的直方图)。在一些实施例中,可使用除SIFT外的方法或算法识别、提取及/或定位特征描述符。
关键点识别及描述符提取在计算上可能要求很高。举例来说,典型的一半大小的视频图形阵列(HVGA)图像可产生数千SIFT特征。SIFT算法(包含迭代匹配过程)的实施可超出一些移动平台上可用的计算资源。但是,在大部分实际情况下,产生与数据库中的特征描述符的匹配的实际特征描述符数目往往比实际上所计算的特征描述符数目低得多。即,所计算的特征描述符的集合中的一小子集可得到对象识别结果。此情况可能部分地由查询图像中影响特征描述符的不同成像条件(例如,照明、视角等)引起,以使得仅几个特征最终与数据库中的特征匹配。本发明的技术可采用可用于识别对象的关键点可驻留在整个图像的仅一个小区域中的空间实境,并因此降低处理整个图像的计算需求。
图1A为说明其中可应用用于基于空间的特征提取的技术的实例系统2的框图。在此实例中,系统2包含通过网络40通信的客户端装置10及服务器装置50。在此实例中,客户端装置10表示移动装置,例如膝上型计算机、所谓的上网本、平板计算机、个人数字助理(PDA)、蜂窝式或移动电话或手机(包含所谓的“智能电话”)、全球定位系统(GPS)装置、数码相机、数字媒体播放器、游戏装置或能够与服务器装置50通信的任何其它移动装置。虽然在本发明中关于移动客户端装置10进行描述,但本发明中描述的技术在这方面不限于移动客户端装置。实情为,所述技术可由能够存储本地对象数据库及/或能够通过网络40或任何其它通信媒体与服务器装置50通信的任何装置实施。
服务器装置50表示接受连接(例如,传输控制协议(TCP)连接)并以其自身的TCP连接进行响应以形成借以接收查询数据及提供识别数据的TCP会话的服务器装置。服务器装置50可表示视觉搜索服务器装置,原因在于服务器装置50在其中执行或以其它方式实施视觉搜索算法来识别图像内的一或多个特征或对象。虽然说明并描述为单独的装置,但(例如)当客户端装置10经配置以在不与服务器装置50通信的情况下识别对象时,服务器装置50的元件及/或功能性可包含于客户端装置10中。
网络40表示互连客户端装置10及服务器装置50的公用网络,例如因特网50。通常,网络40实施开放式系统互连(OSI)模型的各种层以促进客户端装置10与服务器装置50之间的通信或数据的传送。网络40通常包含任何数目的网络装置(例如开关、集线器、路由器、服务器)来使得能够在客户端装置10与服务器装置50之间传送数据。虽然展示为单一网络,但网络40可包括互连以形成网络40的一或多个子网。这些子网可包括服务提供者网络、接入网路、后端网络或通常在公用网络中采用的任何其它类型的网络以提供数据遍及网络40的传送。虽然在此实例中描述为公用网络,但网络40可包括一般不可由公众接入的专用网络。
如图1A的实例中所展示,客户端装置10可包含相机12、传感器14、控制单元20、本地对象数据库30及网络接口32。在此实例中,控制单元20包含特征提取单元22、图块模式单元24及位姿细化单元26。可将特征从客户端装置10发送到服务器装置50以供处理,并且可从服务器装置50接收对象识别及/或可信度信息(例如,对于对象是否可识别的指示及/或对象识别的可信度)。在一些实例中,控制单元20还可包含类似于服务器装置50的特征匹配单元62及可信度估值单元64的单元。出于实例的目的,将关于服务器装置50论述这些单元,但应理解类似单元可包含在客户端装置10的控制单元20内。
属于控制单元20及控制单元60以及其子单元的功能性可由硬件、软件及/或固件的任何组合实施。当属于控制单元20的一或多个功能在软件或固件中实施时,控制单元20可包含用于存储用于软件的指令的一或多个计算机可读存储媒体以及用于执行软件的一或多个基于硬件的处理单元。此类处理单元可包括一或多个通用处理器、应用程序处理器及/或其它类型的处理器。在一些实施例中,计算机可读存储媒体在处理单元中的至少一者内部。控制单元20及控制单元60可另外或替代地包含一或多个硬件单元,例如一或多个数字信号处理器(DSP)、图像信号处理器(ISP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。属于控制单元20及控制单元60的功能性中的任一者或全部可由其任何相应硬件、软件或固件执行。因此,尽管在图1A的实例中在控制单元20及60内说明单独的单元,但应理解在实践中,此类单独的单元可以任何合理的方式组合或可分离成更大数目的模块或组件。
相机12可包含个别图像传感器元件的二维阵列,例如,成行及列布置。相机12可包含(例如)固态传感器元件(例如互补金属氧化物半导体(CMOS)传感器)或其它传感器元件的阵列。将相机12内的图像传感器元件暴露于场景以从所述场景获得光信息及俘获场景的数字图像。数字图像可包含可在特定色彩空间中定义的像素值(例如,具有红-绿-蓝值)或像素明度(强度或亮度)值及像素色度(色彩)值的二维矩阵。
传感器14可包含提供信息到控制单元20的一或多个环境传感器。控制单元20可使用此信息来粗略估计用于由相机12所俘获的图像中的对象的尺度。在一些实例中,传感器14可包含与GPS卫星交互以确定客户端装置10的地理位置的卫星定位系统(SPS)单元,例如全球定位系统(GPS)单元。GPS单元结合其它传感器14还可提供对当俘获图像时相机12所指向的方向的指示。控制单元20可使用此位置及方向信息来限制对可能处于相机12的视距中的潜在对象的搜索。
举例来说,远程对象数据库52可存储用于远程对象数据库52的对象的地理位置。当传感器14的GPS单元确定相机12的地理位置及方向时,控制单元20可从具有相机12的视距或附近区域中的地理位置的远程对象数据库52检索数据子集并将所检索数据存储在本地对象数据库30中。特征提取单元22接着可从图像提取特征描述符并使用这些所提取特征描述符查询本地对象数据库30。
作为另一实例,特征提取单元22可使用地理位置方向来粗略估计在相机12的视距中的对象的初始尺度。举例来说,远程对象数据库52可基于由传感器14的GPS单元确定的客户端装置10的位置存储用于靠近客户端装置10的地理位置中及在相机12的视距中的对象的最可能尺度。特征提取单元22接着可首先使用此初始尺度从图块提取特征描述符并通过网络40发送查询到服务器装置50来查询远程对象数据库52。在一些实例中,除所述特征描述符之外,所述查询还可包含位置信息。
传感器的其它实例可包含(例如)温度传感器、压力传感器(例如,气压传感器)、光传感器、红外传感器、紫外线传感器、湿度传感器、二氧化碳(CO2)传感器或其它此类环境传感器,所述传感器中的任一者或全部可提供用于相应感测值的值。控制单元20可包含指示室内及室外环境的所述传感器中的任一者或全部的数据范围。控制单元20可比较所述传感器中的任一者或全部的当前值与对应数据范围来确定在相机12俘获查询图像时客户端装置10是在室内还是在室外。
特征提取单元22表示根据特征提取算法(例如尺度不变特征变换(SIFT)算法、压缩梯度直方图(CHoG)算法或其它关键点或特征描述提取算法)执行特征提取的单元。一般来说,特征提取单元22对图像数据进行操作,可使用相机12或客户端装置10内包含的其它图像俘获装置在本地俘获所述图像数据。替代地,客户端装置10可(例如)通过经网络40、在本地经与另一计算装置的有线连接或经通信的任何其它有线或无线形式下载图像数据来存储图像数据而不俘获此图像数据自身。
图块模式单元24表示确定由(例如)相机12所俘获的图像中的图块处理次序的单元。举例来说,对于给定尺度,图块模式单元24可确定第一图块(即,起始图块)的初始位置及后续图块的位置。图块模式单元24可基于初始八元组中所检测的潜在关键点确定图块次序。图块模式单元24可经配置以优先化图像的空间布局以使得可首先处理含有特征(例如,潜在关键点)的图像的部分。可通过以较高尺度处理图像(例如,减少取样)及执行定位算法(例如,SIFT)来确定特征的粗略位置。
根据本发明的技术,特征提取单元22可处理对应于预配置模式(例如,光栅扫描)或如图块模式单元所确定的初始图块。特征提取单元22可使用从图块所提取的关键点来提取特征描述符。接着,控制单元20可确定查询图像中的对象的标识是否可仅使用所述特征描述符来确定,并且如果不能,那么继续提取后续图块的特征描述符。
位姿细化单元26表示确定对象的位姿的单元。一般来说,关键点的检测及特征的确定可在基于较低八元组的处理确定对象的位姿时使用较高八元组实现。位姿细化单元26可经配置以利用正互相关(NCC)或其它特征追踪技术来以较低八元组(例如,原生八元组)处理图块内的邻域以提供特征描述符的精确位姿。对应姿态信息可用于细化查询图像的搜索。
如下文所解释,网络接口32可包括无线网络接口。当网络接口32包含无线网络接口时,无线网络接口可实施一或多个无线网络协定,例如IEEE 802.11标准(例如,802.11a/b/g/n)、第三代移动电信(3G)标准、第四代电信标准(其可包含移动全球微波接入互操作性(移动WiMAX)、3G长期演进(LTE)、进阶LTE及进阶WirelessMAN(IEEE802.16))或其它无线网络协定。一般来说,如果无线网络可用,那么控制单元20可确定客户端装置10极可能在室内。当客户端装置10在室内时,控制单元20可确定由相机12所俘获的图像中的对象的大小很可能相对较小。因此,特征提取单元22可以经配置以在确定从哪一起始八元组提取查询图像的特征描述符时将无线网络是否可用处理为一因数。
在图1的实例中,服务器装置50存储远程对象数据库52,而客户端装置10存储本地对象数据库30。客户端装置10可通过网络40从服务器装置50检索本地对象数据库30的数据。因此,本地对象数据库30可表示远程对象数据库52的全部或一部分。在一些实例中,本地对象数据库30可包含来自远程对象数据库52的数据以及来自其它服务器装置(图1A中未展示)的其它远程对象数据库的数据。一般来说,本发明的技术可查询本地对象数据库30及/或远程对象数据库52中的任一者或两者来确定图像中的对象的标识。
如下文更详细地描述,特征提取单元22可从基于原始图像的经滤波图像的各种集合提取关键点。在一些实例中,原始图像可使用高斯滤波器进行滤波以产生高斯模糊图像集合。虽然应理解可应用各种滤波技术,但作为实例,本发明将主要集中于高斯滤波器。但是,还可在不脱离本发明的技术的情况下应用其它滤波技术。另外,在一些实施例中,特征提取单元22可处理未经滤波的图像。一般来说,一个集合中的经滤波图像中的每一者可具有类似大小(例如,就像素分辨率而言),其中可渐进地进一步滤波所述集合中的每一图像。所述集合中的每一者可被称为一“八元组”。高斯模糊一般涉及用高斯模糊函数以所定义尺度卷积特定八元组的图像数据。特征提取单元22可递增地卷积图像数据,其中由变量西格马(σ)所指代的固定倍增因数递增八元组内的所得高斯滤波器。特征提取单元22可形成具有特定八元组的高斯模糊图像中的每一者的可被称为“高斯金字塔”的事物。特征提取单元22接着可比较金字塔中的两个相继堆迭的高斯模糊图像来产生高斯(DoG)图像的差异。DoG图像可形成被称作“DoG空间”的事物。
基于此DoG空间,特征提取单元22可检测关键点,其中关键点指代潜在地从几何视角引起关注的图像数据中的特定样本点或像素周围的像素的区域或片区。一般来说,特征提取单元22将关键点识别为所构造DoG空间中的本地最大值及/或本地最小值。特征提取单元22接着可基于其中检测到关键点的片区的本地图像梯度的方向为所述关键点分配一或多个定向或方向。为了表征所述定向,特征提取单元22可依据梯度定向直方图定义所述定向。特征提取单元22接着可将特征描述符定义为位置及定向(例如,借助于梯度定向直方图)。在定义特征描述符之后,特征提取单元22可(例如)通过在本地对象数据库30或远程对象数据库52查询特征描述符来输出所述特征描述符。特征提取单元22可使用此过程输出特征描述符集合。
网络接口32表示能够通过网络40与服务器装置50通信的任何类型的接口,包含无线接口及有线接口。网络接口32可表示无线蜂窝接口并包含所需硬件或其它组件(例如天线、调制器和类似者)来通过无线蜂窝式网络与网络40通信及通过网络40与服务器装置50通信。在此情况下,尽管在图1A的实例中未展示,但网络40包含无线蜂窝式网络接口32借以与网络40通信的无线蜂窝式接入网络。尽管未在图1A中说明,但客户端装置10可进一步包含显示器,例如能够显示图像(例如,确定对象标识的图像数据或任何其它类型的数据)的任何类型的显示单元。显示器可(例如)包括发光二极管(LED)显示装置、有机LED(OLED)显示装置、液晶显示器(LCD)装置、等离子显示器装置或任何其它类型的显示装置。
服务器装置50包含网络接口54、远程对象数据库52和控制单元60。在此实例中,控制单元60包含特征匹配单元62和可信度估值单元64。网络接口54可类似于客户端装置10的网络接口32,原因在于网络接口54可表示能够与网络(例如网络40)通信的任何类型的接口。特征匹配单元62表示执行特征匹配以基于从客户端装置10接收的特征描述符来识别图像数据中的一或多个特征或对象的单元。
特征匹配单元62可存取远程对象数据库52来执行此特征识别,其中远程对象数据库52存储定义特征描述符的数据并且使至少一些所接收的特征描述符与识别从图像数据提取的相应特征或对象的识别数据相关联。可信度估值单元64确定可信度值,其表示识别为对应于所接收的特征标识符的对象为图像数据中的所述对象的实际标识的可信度。
存储在远程对象数据库52的对象可包含多个特征描述符,并且从客户端装置10接收的特征描述符可匹配远程对象数据库52中的对象的特征描述符的仅一个子集。一般来说,可信度值表示所接收的特征描述符与关联于对应对象的特征描述符之间的匹配之间的对应关系。因此,较高可信度值可反映所接收的特征描述符匹配由远程对象数据库52存储的对象的相对较大数目的特征描述符,而较低可信度值可反映所接收的特征描述符匹配由远程对象数据库52存储的对象的相对较小数目的特征描述符。
在针对从客户端装置10接收的特征描述符确定对象的标识之后,特征匹配单元62提供表示所确定的标识的识别数据。同样,可信度估值单元64评估所确定的标识适当地匹配所接收的特征描述符的可信度,产生对应可信度值,并且将可信度值提供到客户端装置10。客户端装置10可确定可信度值是否超过临限值,并且如果未超过,那么从图像数据的其它八元组提取额外特征描述符并将所述额外特征描述符发送到服务器装置50以供进一步分析。
首先,客户端装置10的用户可与客户端装置10介接来发起视觉搜索。用户可与用户接口或通过客户端装置10的显示器呈现的其它类型的接口介接,以选择图像数据并接着发起视觉搜索来识别作为存储为图像数据的图像的焦点的一或多个特征或对象。举例来说,图像数据可对应于一件著名艺术作品的图像。用户可能已使用客户端装置10的相机12俘获此图像,从网络40下载此图像,或通过与另一计算装置的有线或无线连接在本地检索图像。在此实例中,在任何情况下,在选择图像数据之后,用户可发起视觉搜索来通过(例如)名称、艺术家及完成日期识别这件著名艺术作品。在一些实施例中,(例如)当所述装置正执行扩增实境应用程序的某些实施例时,在通过相机12俘获图像后自动发起视觉搜索。
响应于发起视觉搜索,客户端装置10调用特征提取单元22来提取描述通过图像数据分析找到的关键点中的一者的至少一个特征描述符。控制单元20可使用特征描述符查询本地对象数据库30及/或通过网络40将特征描述符发送到服务器装置50来使用特征描述符查询远程对象数据库52。在一些实例中,特征提取单元22将特征描述符转发到特征压缩单元(在此实例中未展示),其可在通过网络40传输特征描述符之前压缩特征描述符。当发送到服务器装置50时,控制单元20可将特征描述符(其可在包装之前经压缩)包封为网络封包,例如TCP/IP封包。
虽然本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,各种单元可结合存储到计算机可读媒体的合适的软件和/或固件组合在硬件单元中,或者由包含如上文所描述的一或多个处理器的互操作硬件单元集合来提供。在这方面,本发明中对单元的提及意在暗示可或可不实施为单独的硬件单元及/或硬件及软件单元的不同功能单元。
如上文所论述,根据本发明技术的特征提取单元22可经配置以循序地从由相机12所俘获的图像提取特征描述符。即,特征提取单元22可从第一图块提取特征描述符,确定所述特征描述符是否可用于精确确定图像中对象的标识,并且如果不可,那么从一或多个后续图块提取特征描述符。不同平铺模式可用于不同八元组内。
来自训练图像或测试图像的特征属性可用于降低特征产生及匹配的复杂度。所述统计数据可用于初始化特征提取过程中所涉及的参数。在初始化后,特征提取单元22可递增地提取特征,执行辨识及/或推断,并且如果辨识不足以作出关于图像对象的标识可靠决策,那么更新特征提取的下一集合的特征提取参数。使用训练数据(其可存储在本地对象数据库30及/或从远程对象数据库52检索)及过去的查询统计数据,可以较少步骤实现查询图像中对象的辨识,此情况可产生计算节省。
本发明的技术可提供一或多个优势。举例来说,相比SIFT原本实现的提取,所述技术可提供特征描述符的更快定位提取(例如,对于SIFT)。所述技术可允许估计用于处理的尺度空间等级(例如,八元组等级)的最相关子集,这可改良对象辨识的速度及复杂度。这些技术可进一步允许客户端装置10(例如,移动电话)的本地对象数据库30中的更快搜索。即,这些技术允许首先从较高等级进行特征描述符提取,并且当达到足够的精确性时停止所述算法。以这种方式,在分布式视觉搜索系统(例如图1A的系统2)中可存在相对较短的响应。特征描述符可通过网络40渐进地传输到服务器装置50,首先起始于较高等级,并且服务器装置50可对接收的数据执行若干次检索迭代并在找到足够的精确性匹配后将结果或终止信号发送回去。客户端装置10可在接收到搜索结果或终止信号之后停止将特征描述符发送到服务器装置50。
参考图1B,展示具有四个阶的图像金字塔的概念图100。提供图100来说明尺度的概念并且强调可如何在不同分辨率八元组中处理输入图像102。举例来说,所描绘的八元组104、106、108、110中的每一者表示分辨率循序降低(例如,75%、20%、4%、1%)的图像102。将原生图像102视为0阶图像,并且将金字塔中的后续图像视为较高阶或较高八元组。随着图像的阶数(例如,尺度、八元组)增加,分辨率及对应存储器需求降低。较高阶图像106、108、110可用于关键点的粗略匹配。在较高八元组中进行处理保持客户端装置10的计算能力。可由位姿细化单元26使用较低阶图像104的部分及0阶图像102来确定对象的位姿。
参考图2,展示说明以光栅扫描模式处理图像中的图块的概念图200。图200包含图像区域202及关注区域204,其还被称作图块或邻域。图块模式单元24经配置以接收图像区域202并确定初始关注区域202以及对应扫描模式。举例来说,关注区域204可具有宽度‘Q’,其中一对应区域具有开销‘P’。特征提取单元22可考虑到图块204(例如,由(x,y)+/-Δ定义的区域)来提取关键点。即,在本地邻域中提取关键点,并且一次处理一个邻域。循序处理图像202以使得一次处理一个图块204。此技术在本文中一般被称作平铺或条带化。术语图块可被视为当前处理的图像的邻域。一般来说,图块204为图像202(例如,其子集)内的关注区域。图像202可为0阶或较高阶表示。图块204的大小可保持恒定及因此覆盖较高阶图像的较大部分。图块模式单元24可跨图像202移动或扫描图块204。举例来说,说明200展示其中图块204沿图像子区域(例如,条带)垂直向下前进的垂直光栅扫描。当到达子区域中最下部位置时,使图块前进到在图像区域202的顶部及第一重叠区域P的开始处起始的下一条带。可针对整个图像202重复所述过程。
特征提取单元22的能力可确立维度‘Q’和‘P’。图块204的大小可基于在所述移动装置10中可用的处理及滤波能力。‘P’表示图像处理所需的开销。可能有利的是在不使用大量存储器的情况下处理图块。在一个实例中,特征提取单元22卷积两个序列(例如,滤波器及输入样本)。在此实例中,图块204为在任何给定时间处理的输入图像的本地邻域。图块的垂直大小可基于在邻域上操作的最长滤波器的大小。图块的水平侧(‘Q’或‘P+Q’)可较长以便将相关的处理开销P/Q降至最低。作为实例,用于提取特征的对输入图像的最长滤波操作可为25个样本长,这将为执行局部平滑化、局部差及极值搜索所需的滤波器的组合。在此实例中,图块204的大小在水平上可为100个像素并且在垂直上为25个像素。开销P可为大约25。处理第一图块位置所得的输出将为大约75个像素(例如,等于100-25)的较小行并且高仅一个像素。其可为潜在特征位置(例如,其不必为特征位置)。可在紧接着第一位置下方的图块的第二位置中处理下一行75个像素。垂直光栅扫描仅为示范性的并且并非限制,因为(例如)扫描模式可确定性地进行选择、可基于当前尺度及/或可尝试在处理连续图块位置时将本地(例如,高速缓存)存储器重复使用增到最大。
虽然可使图块的垂直大小大于最小值(例如,在以上实例中为25),但从处理开销观点来看,其可能不提供益处,并且可产生提高本地缓存最小大小的需求。如果垂直维度如在以上实例中为仅25,那么在第一图块定位期间所提取的全部特征将大致处于首先处理的同一行75个像素上。朝下滑动图块可积聚全部位于第一条带202内的更多特征。当图块到达第一条带的底部时,已提取包含于202中的全部特征并且以描述符对其进行了加密。图块的大小及形状可变化及/或(例如)基于滤波器的设计、处理能力及/或可用高速缓存存储器被修改。
参考图3,同时进一步参考图2,展示说明根据扩展圈模式处理图像中的图块的概念图300。图300包含图像302及关注区域304。如上文所论述,关注区域304的维度可基于移动装置10可用的处理能力。在此实例中,图块模式单元24可在图像302内的一位置处开始平铺过程,并且确定可以扩展圈模式处理额外图块。应认识到,此处理模式可能并非处理能力的最有效使用,但所述模式仅为示范性的而非限制,因为图块模式单元24可经配置以利用其它模式。在一个实施例中,图块模式单元24可基于图像的很大程度减少取样版本选择初始图块。即,在减少取样图像中的特征的位置可用作图像的较低八元组版本处的扫描的初始位置。搜索模式可基于减少取样图像中的一或多个特征。举例来说,可处理第一特征周围的区域,并且接着可处理第二特征周围的区域。可以循序次序处理额外特征。图块模式单元24可包含针对于待处理的图块的顺序及位置的其它模式及准则。初始图块的位置可基于图像内的相对位置(例如,中心、左上、右下),或基于由用户识别的区域(例如用户触摸或以其它方式启动显示器的区域)。初始图块可基于(例如)基于客户端装置10的位置及定向识别显示器的地理参考区域的位置业务信息。在一个实施例中,可基于图像相关变量(例如焦距、缩放因数及对比度)选择初始图块。举例来说,广角可指示初始图块应位于图像的边界上,而较高缩放因数可指示初始图块应在图像的中心。在一些实施例中,可基于先前图像内的位置或在其中检测或识别对象或特征的先前图像的尺度确定初始图块及/或初始尺度。与客户端装置及图像相关联的其它变量可用于确定初始图块。
在操作中,参考图4,同时进一步参考图2及3,展示说明用于基于使用系统2的图像的空间处理执行从检测管线提早退出的实例过程400的流程图。但是,过程400仅为示范性的而非限制。可(例如)通过添加、移除或重新排列阶段更改过程400。关于客户端装置10的组件描述图4。但是,应理解,图4的方法可由其它装置执行或由各种装置联合地执行。举例来说,服务器装置50的控制单元60(图1A)可经配置以执行图4的方法。
一般来说,方法400可缩短检测图像中的对象所需的时间。检测时间可取决于图像202内的关键点的位置及本质。特征提取单元24包含用以从图块204提取特征的提取算法,并且控制单元20以基于连接几何结构使特征彼此相关的查询的形式提供所提取特征。可将所述特征及几何结构与存储在具有以类似方式提取的特征的一或多个对象数据库30、52中的参考图像进行比较。目的为将所述特征及连接来自查询图像的特征的底层几何结构与数据库中的图像进行比较来寻找最接近匹配。可直接对0阶图像执行过程400,及/或可对较高阶图像执行过程400。在一个实施例中,可根据过程400处理较高阶图像来确定将用于较低阶图像上的初始图块及/或光栅扫描模式的位置。在一些实施例中,在确定待使用的初始图块及/或光栅扫描模式之后,根据过程400使用所确定的初始图块及/或光栅扫描模式处理较低阶图像。
在阶段402处,控制单元20接收对象的图像。举例来说,相机12可俘获对象的图像202,并且控制单元20通过相机模式或从先前存储的图像文件接收图像。在阶段404处,特征提取单元22可选择八元组或将所接收的图像减少取样至较低尺度(即,较高阶),以开始处理。由于过程400可用于图像的0八元组,阶段404为任选的。较高八元组(即,减少取样的图像)可能足以用于特征辨识并且可提供特征定位信息来辅助较低八元组下的处理。
在阶段406处,图块模式单元24可确定待处理的初始图块204。在一个实施例中,初始图块可在图像202的左上角,并且可以光栅扫描模式处理后续图块。在另一实施例中,参考图3,初始图块304可基于很大程度减少取样的图像的低复杂度搜索,并且可根据图块处理模式在较低阶图像中处理额外图块。图块处理模式不必依照如图3中所描绘的循序及连续次序,因为可按任何次序或顺序处理图块。
在确定初始图块(例如,初始图块204、304)之后,特征提取单元22可从初始图块提取关键点。特征提取单元可应用经配置以提取特征及图块的对应几何结构的算法。在一个实施例中,特征提取模组22处理单一图块,并且接着控制单元20在移动到按顺序(例如,按光栅扫描、扩展圈或其它模式)的下一图块之前确定在数据库(例如,本地对象数据库30或远程对象数据库52)中是否存在特征匹配。举例来说,在阶段408处,特征提取单元22可利用特征检测算法(高斯模糊滤波)来从图块提取特征。在阶段410处,特征提取单元22可确定在图块204中所提取的特征(如果存在)的计数,并且保持针对所处理的每一图块提取的特征的运行总计。一般来说所提取特征的总数可随着图块从初始位置向前前进而成直线地变大,并且在形成匹配查询时考虑全部累积特征。举例来说,特征提取单元22可迭代N数目个图块并且存储所述N数目个图块中的所检测特征的累积总计。
在阶段412处,特征提取单元22可将针对所处理图块检测的计数特征与阈值进行比较。如果检测到足够数目的(例如,3、4、5、10、15、50个)特征,那么控制单元20可在阶段414处执行匹配步骤。举例来说,可将所检测特征及对应几何结构与存储在对象数据库30、52中的一或多者中的特征进行比较。如果控制单元20确定在阶段416处辨识出对象,那么可在阶段418处退出检测管线。在一个实施例中,过程400可继续直到辨识的对象的数目符合预定阈值(例如,1、2、5、10个对象)。预定阈值可(例如)由客户端10上执行的扩增实境应用程序建立。对象检测(即,匹配步骤)的结果可呈现给用户或另一应用程序。举例来说,匹配步骤的结果可在客户端装置上显示为文本或扩增,或通过网络40呈现给另一本地或远程应用程序(例如,Web服务)。在一个实施例中,所述匹配步骤的结果可存储在存储器中以供应用程序随后存取。
在一个实施例中,当在阶段416处辨识出对象时,在任选阶段416a处,位姿细化单元26经配置以确定对象的位姿在几何学上是否与对象数据库30、52中的信息一致。举例来说,位姿细化单元26可尝试基于最低八元组细化对象的位姿。如果位姿细化信息在几何学上不一致,那么过程400可确定对象未经辨识。位姿细化步骤416a可添加在较高八元组搜索中找到的对错误肯定的安全防护。如果对象未经辨识、姿态信息在几何学上不一致、或特征数目不够,那么可在阶段420处处理顺序中的下一图块。
在一些实施例中,首先根据过程400处理除原生八元组外的一八元组,并且如果阈值数目个对象未经辨识及/或阈值数目个对象的位姿在几何学上不一致,那么可根据过程400处理较低八元组。在一些实施例中,选择第一八元组(例如,最高八元组),并且根据过程400循序处理较低八元组直到阈值数目个对象经辨识并在几何学上一致为止,此时过程400可退出检测管线。
参看图5,展示说明在尺度及空间图像处理之后的提早退出的概念图500。图500包含表示相机视图或由移动装置10所俘获的图像文件的低八元组图像502(例如,0或原生八元组)。图像502包含位于图像的上半部分的所关注对象504(即,自行车)。特征提取单元22经配置以大体上检测可含有特征的图像502内的区域,并且图块模式单元24可经配置以选择用于初始图块位置的区域。特征提取单元22还可确定用于初始图块的尺度。如图像502中所描绘,对象位于图像502的上半部分,并且可能不存在处理图像的下半部分中的图块的理由。图块模式单元24确定扫描模式。在一个实例中,第一图块508可位于很大程度减少取样的八元组图像506(例如,使用0八元组图像502的像素的大约1%、5%、10%或15%)。一般来说,在一些实施例中,图像506为比图像502更高的八元组。原始图像502可描述为最低(或原生)尺度/八元组。在一个实例中,图像506可为图像502的大小的大约1/4(即,在每一维度上为1/2),并且其被称为第一八元组(即,比原始图像高一个八元组)。图像512为另一较高八元组并且经提供来表明平铺过程可在不同八元组中实施。举例来说,图像512可为原始图像502的大小的大约1/16(即,在每一维度上为1/4)。特征提取单元22可在邻域514中执行低复杂度特征搜索。控制单元20可执行本地统计,并且可存储所关注的对象504的位置。举例而言,所述位置可识别图像的子区域。子区域可定义为(x1,y1)及(x2,y2),并且平铺可出现在所述子区域内。
在操作中,特征提取单元22经配置以处理较高八元组图像506、512(即,很大程度减少取样的图像)并执行粗略等级匹配。举例来说,特征提取单元22可首先检测特征510及第二(或更高)八元组图像512中的相关联几何结构。如果使用第二八元组图像512的粗略匹配的结果不成功,那么特征提取单元22经配置以处理较低八元组图像(例如,第一八元组图像506)。一般来说,特征提取单元22的输出为对于相机视图502中的目标对象是否为所关注的对象(例如,与对象数据库30、52中的一者中的信息相关)的指示。
如所论述,特征提取单元22可处理高八元组图像506、512来确定特征510是否表示所关注的对象504。位姿细化单元26经配置以处理来自较低八元组图像516的图块来确定对象的位姿。举例来说,较低八元组516可处于像素等级域中(例如,原生八元组502)。一般来说,较高八元组图像(例如,较高八元组图像506、512)为更大程度减少取样的八元组。较高八元组图像512可大体上足以确定对象504的粗略位置。举例来说,特征提取单元22经配置以基于减少取样的图像512的粗略位置处理识别区域518。位姿细化单元26经配置以处理包含对象504的特征510的区域518,来确定对象504的精确位姿。在一个实施例中,位姿细化单元26利用来自减少取样图像512的对象的估计地点上的粗略单应性投影来执行在较低八元组图像的区域518中的本地搜索。位姿细化单元26可使用归一化互相关(NCC)或其它便宜特征追踪技术执行针对初始分辨率(例如,八元组0)的位姿细化的本地搜索。区域518的大小可基于用于检测对象特征510的八元组。举例来说,如果第一八元组图像506用于粗略定位,那么区域518可为图块508的大小的四倍。类似地,如果图块514用于粗略定位,那么区域518的大小将为图块514的大小的十六倍。图块的大小及比例仅为示范性的而非限制,因为可使用其它尺寸及比例。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体或通信媒体等有形媒体,通信媒体包含促进将计算机程序从一处传送到另一处(例如,根据通信协议)的任何媒体。以此方式,计算机可读媒体大体上可以对应于(1)有形计算机可读存储媒体,其是非暂时的,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,有形计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或任何其它可用来存储指令或数据结构形式的所要程序代码并且可由计算机存取的媒体。而且,任何连接可适当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是,应理解,计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘利用激光以光学方式再生数据。上述各项的组合也应包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面,本文所述的功能性可以在经配置用于编码及解码的专用硬件及/或软件模块内提供,或者并入在组合式编解码器中。而且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在多种多样的装置或设备中实施,包含无线手持机、集成电路(IC)或IC集合(例如,芯片组)。本发明中描述各种组件、模块或单元来强调经配置以执行所公开的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件而组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述各种实例。所述及其它实例属于所附权利要求书的范围内。
Claims (38)
1.一种退出对象检测管线的方法,所述方法包括:
在处于所述对象检测管线中时确定图像的第一图块内的特征的数目,其中所述图像可分成多个图块;
如果所述第一图块内的特征的所述数目符合阈值,那么使用所述第一图块内的所述特征的至少一子集执行匹配步骤;
如果所述匹配步骤的结果指示在所述图像中辨识出对象,那么退出所述对象检测管线;及
呈现所述匹配步骤的所述结果。
2.根据权利要求1所述的方法,其进一步包括:如果所述第一图块中的特征的所述数目并不符合所述阈值,那么从所述图像内的第二图块提取特征。
3.根据权利要求2所述的方法,其中所述图像内的第二图块的位置基于垂直光栅模式。
4.根据权利要求2所述的方法,其中所述图像内的所述第二图块的位置基于预定搜索模式。
5.根据权利要求2所述的方法,其中所述图像内的所述第一和第二图块的位置基于对所述图像的减少取样版本执行的图像分析。
6.根据权利要求2所述的方法,其进一步包括:
如果N个图块中的特征的累积数目不符合阈值,那么从所述图像内的N+1图块提取特征;
如果来自所述N个图块及所述N+1图块的累积特征的所述数目符合阈值,那么使用从所述N+1图块提取的所述特征及从所述N个图块提取的所述累积特征执行所述匹配步骤;及
如果使用来自所述N个图块及所述N+1图块的所述累积特征的所述匹配步骤的结果指示在所述图像中辨识出对象,那么退出所述对象检测管线。
7.根据权利要求1所述的方法,其进一步包括:如果所述匹配步骤的所述结果未指示辨识出对象,那么从所述图像内的第二图块提取特征。
8.根据权利要求1所述的方法,其进一步包括:确定所辨识对象的位姿,及如果所述所辨识对象的所述位姿在几何学上不与对象数据库中的信息一致,那么从所述图像内的第二图块提取特征。
9.根据权利要求1所述的方法,其中在从所述第一图块提取所述特征之前对所述图像减少取样。
10.根据权利要求1所述的方法,其中执行所述匹配步骤包括:将所述特征子集传输到远程装置,及接收来自所述远程装置的所述结果。
11.根据权利要求1所述的方法,其包括:
基于所述第一图块的所述所提取特征确定位置统计数据;
基于所述位置统计数据在所述图像的较低八元组版本上检测所述所提取特征;及
基于在所述图像的所述较低八元组版本上所检测的所述特征计算所述对象的位姿。
12.一种设备,其经配置以实施对象检测管线,所述设备包括:
存储器单元;
处理器,其耦合到所述存储器单元且经配置以:
在处于所述对象检测管线中时确定图像的第一图块内的特征的数目,其中所述图像可分成多个图块;
在所述第一图块内的特征的所述数目符合阈值时使用所述第一图块内的所述特征的至少一子集执行匹配步骤;
在所述匹配步骤的结果指示在所述图像中辨识出对象时退出所述对象检测管线;及
将所述匹配步骤的所述结果存储在所述存储器单元中。
13.根据权利要求12所述的设备,其中所述处理器经进一步配置以在所述第一图块中的特征的所述数目不符合所述阈值时从所述图像内的第二图块提取特征。
14.根据权利要求13所述的设备,其中所述处理器经配置以基于垂直光栅模式确定所述图像内的第二图块的位置。
15.根据权利要求13所述的设备,其中所述处理器经配置以基于预定搜索模式确定所述图像内的所述第二图块的位置。
16.根据权利要求13所述的设备,其中所述处理器经配置以产生所述图像的减少取样版本及基于对所述图像的所述减少取样版本执行的图像分析确定所述图像内的所述第一和第二图块的位置。
17.根据权利要求13所述的设备,其中所述处理器经配置以:
在N个图块中的特征的累积数目不符合阈值时从所述图像内的N+1图块提取特征;
在来自所述N个图块及所述N+1图块的累积特征的所述数目符合阈值时使用从所述N+1图块提取的所述特征及从所述N个图块提取的所述累积特征执行所述匹配步骤;及
在使用来自所述N个图块及所述N+1图块的所述累积特征的所述匹配步骤的结果指示在所述图像中辨识出对象时退出所述对象检测管线。
18.根据权利要求12所述的设备,其中所述处理器经配置以在所述匹配步骤的所述结果未指示辨识出对象时从所述图像内的第二图块提取特征。
19.根据权利要求12所述的设备,其中所述处理器经配置以确定所辨识对象的位姿及在所述所辨识对象的所述位姿在几何学上不与对象数据库中的信息一致时从所述图像内的第二图块提取特征。
20.根据权利要求12所述的设备,其中所述处理器经配置以在从所述第一图块提取所述特征之前对所述图像减小取样。
21.根据权利要求12所述的设备,其中所述处理器经配置以通过将所述特征子集传输到远程装置及接收来自所述远程装置的所述结果来执行所述匹配步骤。
22.根据权利要求12所述的设备,其中所述处理器经配置以:
基于所述第一图块的所述所提取特征确定位置统计数据;
基于所述位置统计数据在所述图像的较低八元组版本上检测所述所提取特征;及
基于在所述图像的所述较低八元组版本上所检测的所述特征计算所述对象的位姿。
23.根据权利要求12所述的设备,其进一步包括相机,所述相机经配置以俘获所述图像及将所述图像提供到所述处理器。
24.一种用于退出对象检测管线的设备,所述设备包括:
用于在处于所述对象检测管线中时确定图像的第一图块内的特征的数目的装置,其中所述图像可分成多个图块;
用于在所述第一图块内的特征的所述数目符合阈值时使用所述第一图块内所述特征的至少一子集执行匹配步骤的装置;
用于在所述匹配步骤的结果指示在所述图像中辨识出对象时退出所述对象检测管线的装置;及
用于存储所述匹配步骤的所述结果的装置。
25.根据权利要求24所述的设备,其进一步包括:用于在所述第一图块中的特征的所述数目并不符合所述阈值时从所述图像内的第二图块提取特征的装置。
26.根据权利要求25所述的设备,其进一步包括用于基于垂直光栅模式确定所述图像内的第二图块的位置的装置。
27.根据权利要求25所述的设备,其进一步包括用于基于预定搜索模式确定所述图像内的所述第二图块的位置的装置。
28.如权利要求25所述的设备,其进一步包括用于产生所述图像的减少取样版本的装置及用于基于对所述图像的所述减少取样版本执行的图像分析确定所述图像内的所述第一和第二图块的位置的装置。
29.根据权利要求25所述的设备,其进一步包括:
用于在N个图块中的特征的累积数目不符合阈值时从所述图像内的N+1图块提取特征的装置;
用于在来自所述N个图块及所述N+1图块的累积特征的所述数目符合阈值时使用从所述N+1图块提取的所述特征及从所述N个图块提取的所述累积特征执行所述匹配步骤的装置;及
用于在使用来自所述N个图块及所述N+1图块的所述累积特征的所述匹配步骤的结果指示在所述图像中辨识出对象时退出所述对象检测管线的装置。
30.根据权利要求24所述的设备,其进一步包括:用于在所述匹配步骤的所述结果未指示辨识出对象时从所述图像内的第二图块提取特征的装置。
31.根据权利要求24所述的设备,其进一步包括用于确定所辨识对象的位姿的装置及用于在所述所辨识对象的所述位姿在几何学上不与对象数据库中的信息一致时从所述图像内的第二图块提取特征的装置。
32.根据权利要求24所述的设备,其包括用于在从所述第一图块提取所述特征之前对所述图像减少取样的装置。
33.根据权利要求24所述的设备,其中所述用于执行所述匹配步骤的装置包括用于将所述特征子集传输到远程装置的装置及用于接收来自所述远程装置的所述结果的装置。
34.根据权利要求24所述的设备,其包括:
用于基于所述第一图块的所述所提取特征确定位置统计数据的装置;
用于基于所述位置统计数据在所述图像的较低八元组版本上检测所述所提取特征的装置;及
用于基于在所述图像的所述较低八元组版本上所检测的所述特征计算所述对象的位姿的装置。
35.根据权利要求24所述的设备,其包括用于俘获所述图像及将所述图像提供到所述处理器的装置。
36.一种计算机可读存储媒体,其上存储有在执行时致使处理器执行以下操作的指令:
在处于对象检测管线中时确定图像的第一图块内的特征的数目,其中所述图像可分成多个图块;
在所述第一图块内的特征的所述数目符合阈值时使用所述第一图块内所述特征的至少一子集执行匹配步骤;
在所述匹配步骤的结果指示在所述图像中辨识出对象时退出所述对象检测管线;及
存储所述匹配步骤的所述结果。
37.根据权利要求36所述的计算机程序产品,其进一步包括指令,所述指令致使所述处理器在所述第一图块中特征的所述数目并不符合所述阈值时从所述图像内的第二图块提取特征。
38.根据权利要求36所述的计算机程序产品,其进一步包括指令,所述指令致使所述处理器在所述匹配步骤的所述结果未指示辨识出对象时从所述图像内的第二图块提取特征。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/796,444 | 2013-03-12 | ||
US13/796,444 US9202129B2 (en) | 2013-03-12 | 2013-03-12 | Reducing object detection time by utilizing space localization of features |
PCT/US2014/020898 WO2014164158A1 (en) | 2013-03-12 | 2014-03-05 | Reducing object detection time by utilizing space localization of features |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105009145A true CN105009145A (zh) | 2015-10-28 |
Family
ID=50389528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480010281.7A Pending CN105009145A (zh) | 2013-03-12 | 2014-03-05 | 通过利用特征的空间定位减少对象检测时间 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9202129B2 (zh) |
EP (1) | EP2973231A1 (zh) |
JP (1) | JP6437514B2 (zh) |
KR (1) | KR20150127653A (zh) |
CN (1) | CN105009145A (zh) |
WO (1) | WO2014164158A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097398A (zh) * | 2016-07-27 | 2016-11-09 | 维沃移动通信有限公司 | 一种运动对象的检测方法及移动终端 |
CN107657574A (zh) * | 2017-10-06 | 2018-02-02 | 杭州昂润科技有限公司 | 一种基于ar技术的地下管线资产管理系统及方法 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101214536B1 (ko) * | 2010-01-12 | 2013-01-10 | 삼성전자주식회사 | 뎁스 정보를 이용한 아웃 포커스 수행 방법 및 이를 적용한 카메라 |
US10970429B2 (en) * | 2013-01-07 | 2021-04-06 | Magma Giessereitechnologie Gmbh | Method and algorithm for simulating the influence of thermally coupled surface radiation in casting processes |
US10091419B2 (en) * | 2013-06-14 | 2018-10-02 | Qualcomm Incorporated | Computer vision application processing |
KR20150095144A (ko) * | 2014-02-12 | 2015-08-20 | 삼성전자주식회사 | 그래픽스 데이터를 렌더링하는 방법 및 장치 |
DK178380B1 (en) * | 2014-07-01 | 2016-01-25 | Magma Giessereitechnologie Gmbh | Method of beam tracking for use in a simulation or calculation process |
US9418283B1 (en) * | 2014-08-20 | 2016-08-16 | Amazon Technologies, Inc. | Image processing using multiple aspect ratios |
US9576196B1 (en) | 2014-08-20 | 2017-02-21 | Amazon Technologies, Inc. | Leveraging image context for improved glyph classification |
US10033941B2 (en) * | 2015-05-11 | 2018-07-24 | Google Llc | Privacy filtering of area description file prior to upload |
DE102016115837A1 (de) | 2016-08-25 | 2018-03-01 | Werner Scholzen | Verfahren für die Urheberschaftsbewertung eines Gemäldes sowie eine entsprechende Verwendung |
CN108428242B (zh) * | 2017-02-15 | 2022-02-08 | 宏达国际电子股份有限公司 | 图像处理装置及其方法 |
CN108965687B (zh) * | 2017-05-22 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 拍摄方向识别方法、服务器及监控方法、系统及摄像设备 |
US11227382B2 (en) * | 2018-01-11 | 2022-01-18 | Intelinair, Inc. | Change detection system |
US11042626B2 (en) * | 2018-05-21 | 2021-06-22 | Nextek Power Systems, Inc. | Method of and system for authenticating a user for security and control |
US11977723B2 (en) * | 2019-12-17 | 2024-05-07 | Palantir Technologies Inc. | Image tiling and distributive modification |
KR102519144B1 (ko) * | 2019-12-27 | 2023-04-06 | 부산대학교 산학협력단 | 심층신경망 가속기의 동적 전원 제어 장치 및 방법 |
US11494880B2 (en) * | 2021-03-19 | 2022-11-08 | Apple Inc. | Image pyramid generation for image keypoint detection and descriptor generation |
US11475240B2 (en) * | 2021-03-19 | 2022-10-18 | Apple Inc. | Configurable keypoint descriptor generation |
US11947590B1 (en) * | 2021-09-15 | 2024-04-02 | Amazon Technologies, Inc. | Systems and methods for contextualized visual search |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5768421A (en) * | 1995-09-12 | 1998-06-16 | Gaffin; Arthur Zay | Visual imaging system and method |
CN101504655A (zh) * | 2009-03-06 | 2009-08-12 | 中山大学 | 一种基于彩色关系特征的图像近似拷贝检测方法 |
CN102096821A (zh) * | 2010-04-15 | 2011-06-15 | 西安理工大学 | 基于复杂网络理论的强干扰环境下的车牌识别方法 |
US20120183224A1 (en) * | 2011-01-18 | 2012-07-19 | Graham Kirsch | Interest point detection |
CN103026368A (zh) * | 2010-07-30 | 2013-04-03 | 高通股份有限公司 | 使用增量特征提取的对象辨识 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5579444A (en) | 1987-08-28 | 1996-11-26 | Axiom Bildverarbeitungssysteme Gmbh | Adaptive vision-based controller |
JPH09282453A (ja) * | 1996-04-09 | 1997-10-31 | Matsushita Electric Ind Co Ltd | 位置認識方法 |
US6173066B1 (en) | 1996-05-21 | 2001-01-09 | Cybernet Systems Corporation | Pose determination and tracking by matching 3D objects to a 2D sensor |
US6195473B1 (en) | 1997-12-26 | 2001-02-27 | International Business Machines Corporation | Non-integer scaling of raster images with image quality enhancement |
EP1096777A1 (en) | 1999-10-28 | 2001-05-02 | Hewlett-Packard Company, A Delaware Corporation | Document imaging system |
JP5116640B2 (ja) * | 2008-11-15 | 2013-01-09 | 株式会社キーエンス | 検出候補の近傍排除処理機能を有する画像処理装置及び画像処理プログラム並びにコンピュータで読み取り可能な記録媒体 |
US8861864B2 (en) | 2010-03-11 | 2014-10-14 | Qualcomm Incorporated | Image feature detection based on application of multiple feature detectors |
US8885978B2 (en) | 2010-07-05 | 2014-11-11 | Apple Inc. | Operating a device to capture high dynamic range images |
JP4764531B1 (ja) * | 2011-02-28 | 2011-09-07 | ヴィスコ・テクノロジーズ株式会社 | 画像検査装置 |
-
2013
- 2013-03-12 US US13/796,444 patent/US9202129B2/en not_active Expired - Fee Related
-
2014
- 2014-03-05 EP EP14713325.0A patent/EP2973231A1/en not_active Ceased
- 2014-03-05 WO PCT/US2014/020898 patent/WO2014164158A1/en active Application Filing
- 2014-03-05 JP JP2016500686A patent/JP6437514B2/ja not_active Expired - Fee Related
- 2014-03-05 CN CN201480010281.7A patent/CN105009145A/zh active Pending
- 2014-03-05 KR KR1020157027584A patent/KR20150127653A/ko not_active Application Discontinuation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5768421A (en) * | 1995-09-12 | 1998-06-16 | Gaffin; Arthur Zay | Visual imaging system and method |
CN101504655A (zh) * | 2009-03-06 | 2009-08-12 | 中山大学 | 一种基于彩色关系特征的图像近似拷贝检测方法 |
CN102096821A (zh) * | 2010-04-15 | 2011-06-15 | 西安理工大学 | 基于复杂网络理论的强干扰环境下的车牌识别方法 |
CN103026368A (zh) * | 2010-07-30 | 2013-04-03 | 高通股份有限公司 | 使用增量特征提取的对象辨识 |
US20120183224A1 (en) * | 2011-01-18 | 2012-07-19 | Graham Kirsch | Interest point detection |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097398A (zh) * | 2016-07-27 | 2016-11-09 | 维沃移动通信有限公司 | 一种运动对象的检测方法及移动终端 |
CN106097398B (zh) * | 2016-07-27 | 2019-01-29 | 维沃移动通信有限公司 | 一种运动对象的检测方法及移动终端 |
CN107657574A (zh) * | 2017-10-06 | 2018-02-02 | 杭州昂润科技有限公司 | 一种基于ar技术的地下管线资产管理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20150127653A (ko) | 2015-11-17 |
US9202129B2 (en) | 2015-12-01 |
JP6437514B2 (ja) | 2018-12-12 |
WO2014164158A1 (en) | 2014-10-09 |
JP2016513843A (ja) | 2016-05-16 |
EP2973231A1 (en) | 2016-01-20 |
US20140270344A1 (en) | 2014-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105009145A (zh) | 通过利用特征的空间定位减少对象检测时间 | |
KR101528081B1 (ko) | 증분 특징 추출을 사용하는 오브젝트 인식 | |
WO2019218824A1 (zh) | 一种移动轨迹获取方法及其设备、存储介质、终端 | |
Chen et al. | City-scale landmark identification on mobile devices | |
CN111046752B (zh) | 一种室内定位方法、计算机设备和存储介质 | |
US9858500B2 (en) | Fast interest point extraction for augmented reality | |
CN102640185A (zh) | 图像序列中对象实时表示的混合跟踪的方法、计算机程序和设备 | |
CN105247573A (zh) | 用于数据库创建目的的交互式且自动3d对象扫描方法 | |
CN104866414A (zh) | 应用程序的测试方法、装置及系统 | |
CN105824928A (zh) | 移动终端、服务器、基于内容的图像识别搜索方法及系统 | |
KR102468309B1 (ko) | 영상 기반 건물 검색 방법 및 장치 | |
CN104486585A (zh) | 一种基于gis的城市海量监控视频管理方法及系统 | |
CN113298871B (zh) | 地图生成方法、定位方法及其系统、计算机可读存储介质 | |
CN103733225A (zh) | 特征点对等系统、特征点对等方法、以及记录介质 | |
CN110120090B (zh) | 三维全景模型构建方法、装置及可读存储介质 | |
CN106603888A (zh) | 图像颜色提取处理结构 | |
CN109035328B (zh) | 一种图像指向性的识别方法、系统、装置和存储介质 | |
Tang et al. | Automatic geo‐localization framework without GNSS data | |
Constantinou et al. | Spatial keyframe extraction of mobile videos for efficient object detection at the edge | |
CN111860051A (zh) | 一种基于车辆的回环检测方法及装置、车载终端 | |
Wang et al. | Dense 3D mapping for indoor environment based on kinect-style depth cameras | |
CN106685941A (zh) | 一种优化ar注册的方法、装置及服务器 | |
Li et al. | Emovis: An efficient mobile visual search system for landmark recognition | |
Kobori et al. | Proposal of an Encoded Marker for Working Robots: An Encoded Marker Easy to Detect in Various Positions and under Blur | |
Handbauer et al. | Photo Tagging in Urban Environments. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20190628 |