CN104007817B - 具有至少一个摄像机的可穿戴信息系统 - Google Patents

具有至少一个摄像机的可穿戴信息系统 Download PDF

Info

Publication number
CN104007817B
CN104007817B CN201410060643.5A CN201410060643A CN104007817B CN 104007817 B CN104007817 B CN 104007817B CN 201410060643 A CN201410060643 A CN 201410060643A CN 104007817 B CN104007817 B CN 104007817B
Authority
CN
China
Prior art keywords
feature
information system
image
information
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410060643.5A
Other languages
English (en)
Other versions
CN104007817A (zh
Inventor
彼得·米尔
托马斯·斯维林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Computer Inc filed Critical Apple Computer Inc
Publication of CN104007817A publication Critical patent/CN104007817A/zh
Application granted granted Critical
Publication of CN104007817B publication Critical patent/CN104007817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0251Power saving arrangements in terminal devices using monitoring of local events, e.g. events related to user activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明涉及一种具有至少一个摄像机的可穿戴信息系统,该信息系统可操作的具有低功率模式和高功率模式。该信息系统被配置为使高功率模式通过至少一个摄像机的至少一个视野中的至少一个对象的检测激活。

Description

具有至少一个摄像机的可穿戴信息系统
技术领域
本发明是关于一种能够在减少电池耗费的条件下向用户提供多媒体信息的方法及其系统。
背景技术
标准的方法,局限性和现有的解决方案:
近年来智能手机,语音导览和类似的信息系统已流行起来。增强现实技术,作为一个新型的用户界面范例,已有很大的进步,特别是基于被用做对象识别和位姿估计的计算机视觉算法。人们已经了解装备有摄像机的头戴式显示器有一段时间了(例如,美国专利7,245,273 权利要求22)。
对于能随时观察用户周围以获得感兴趣对象的普适信息系统的真正成功而言,一个主要障碍在于运行在应用处理器或GPU上的图像处理算法的高功耗。本专利描述了一种创新系统和方法,能够极大地减少这个问题。
我们能找到的与本发明最接近的现有技术是美国专利号为7302089的专利。该专利描述了将移动设备运行在低功率模式(待机)和高功率模式(活跃)的想法。在低功率模式下,摄像机可获取一个低分辨率图像并针对一个已知像元与它匹配(例如,手机用户的面部或一幅图像)。如果在该低分辨率图像中发现已知像元,手机可被唤醒并采用更高分辨率的图像来验证结果,并且基本将手机解锁以便接电话或类似的事情。该专利的目的是基于图像实现节能解锁。一个情景可能是放置在周围的手机一旦接到电话,就试图检查是否用户在视野内以便解锁手机屏幕。
本发明的不同之处,首先在于目的和可能的应用,因为我们不是要解锁设备,而是设法在节能的方式下为用户提供关于在用户周围的对象的信息。本发明特别适合用于头戴式显示器和指向用户前方的空间的摄像机(如图12所示)。一个可能的情景是用户步行通过一个展出200幅图像的博物馆,其中20幅是导览器的部分内容。用户开启导览器,例如作为他的信息系统上的一个应用,并开始步行通过博物馆。一定时间后,该系统移至低功率模式。用户现在可以享受数小时步行通过博物馆,而不用担心自己信息系统的电池。根据本发明,信息系统能够为感兴趣的对象扫描用户的环境(例如展览中感兴趣的作品),这可以在几乎不耗能的情况下做到。只要感兴趣的作品进入视野,系统可以“醒来”并移至高功率模式,例如为了下载感兴趣的内容并使用增强现实技术显示它或为了启动音频剪辑,解释作品。
本发明的另一个优点是为诸如室内导航的应用改进反应时间。低功率模式允许当它识别出新的数据需要下载时或当一个新的导航模型或新的计算机视觉模型需要被存储在存储器中时唤醒系统。一切就绪后,系统可再次移至低功率模式。一旦一个路标进入视野,系统可迅速上电并迅速地为用户提供相关信息。用户还可以自行激活系统(例如,当他迷路时),系统可以立即提供导航信息。
不同于现有技术,本方法可以在低功耗下提供更复杂的检测算法,相比如US7302089。因为它工作在更高级的特征描述,并工作在不同的图像分辨率,它可以处理许多更大的对象数据库并能更可靠检测这些对象。该对象也可以是任意的3D形状。
在对摄像机拍摄的图像进行处理的许多任务,比如在增强现实应用和计算机视觉中,要求在同一个对象或场景的多个图像中发现对应于同一物理3D表面的点或特征。例如,在增强现实技术中,存在的主要问题是确定摄像机相对于世界的位置和指向(摄像机位姿)。
光学跟踪的初始化的标准方法(即当来自前一帧的信息不可用的时候)可被分为三个主要组成模块:特征检测,特征描述和特征匹配(见图1)。如技术人员应当理解的,如果来自前一帧的信息不可用,这并不意味着来自诸如GPS或指南针的非光学传感器的信息不被容许。特征检测也被称为特征提取。
首先,为识别特征,使用具有高度重复性的方法在一幅图像中执行特征检测。换而言之,该方法将在一幅图像中选择与相同物理3D表面一致的部分作为不同观察点,不同的旋转和/ 或照明设置的特征(例如,局部特征描述符如SIFT参考文献[1],形状描述符参考文献[18] 或技术人员已知的其他方法)的可能性高。通常在尺度空间内提取特征,即以不同的尺度。因此,除其二维位置之外每个特征有一个可复验的尺度。此外,从在围绕该特征的区域中的各像素点的强度计算可复验的指向(旋转),例如作为强度梯度的主导方向。
其次,为使特征能够比较和匹配而确定特征描述符。常见的方法使用经过计算的特征的尺度和指向来转换特征描述符的坐标,其为旋转和尺度提供不变性。例如,描述符可以是n 维实数的矢量,其是通过连接各局部图像强度的函数直方图来构建,如梯度渐变(如在参考文献[1](Lowe,David G.“Distinctive Image Features from Scale-InvariantKeypoints.”International Journal of Computer Vision60.2(2004):91-110))。作为一种选择,描述符可能是一个n维的二元向量(如在参考文献[22](Leutenegger,Stefan,Margarita Chli,and Roland Y.Siegwart."BRISK:Binary robust invariant scalablekeypoints."Computer Vision(ICCV),2011IEEE International Conference on.IEEE,2011))。
最后,一个重要的任务是特征匹配。给定一个自当前强度图像中检测和描述的当前特征,目的是在一组被称为参考特征的给定特征中,找到一个与相同物理3D或2D表面一致的特征。特征匹配最简单的方法是通过穷举搜索找到当前特征的描述符的最近邻,并选择相应的参考特征作为匹配。更先进的方法是在描述符域中采用空间数据结构来加速匹配。不幸的是,没有已知的方法能在高维空间中实现比穷举搜索快得多的最近邻搜索。这就是为什么常见的方法使用近似最近邻搜索来代替,如通过空间划分数据结构实现,如KD-树在参考文献[1](Lowe, David G.“Distinctive Image Features from Scale-InvariantKeypoints.” International Journal of Computer Vision60.2(2004):91-110)。
图1(结合图2)显示了以一组参考特征匹配一组当前特征的标准方法的流程图。在步骤S11中,由一个拾取装置提供当前图像CI。然后下一步骤S12在当前图像CI中检测和描述特征(可选:根据估计模型-特征-位置选择性提取),其中在摄像图像cl中每个所产生的当前特征c具有一个特征描述符d(c)和一个2D位置。能够用来进行特征检测和描述的可行方法在下面参照典型实施例更详细地解释。在步骤S13中提供一组参考特征r,每个参考特征具有一个描述符d(r)和在全局坐标系中任选的一个(部分)位置和/或指向。参考特征可以是提取自参考图像或3D模型或关于对象的其他信息。请注意,在全局坐标系中位置和 /或指向在可视化搜索和分类任务的情况中是可选择的。在步骤S14中,匹配来自步骤S12的当前特征c和来自步骤S13的参考特征r。例如,对于每个当前特征,搜索具有与当前特征的描述符关于一定距离度量最接近的描述符的参考特征。根据步骤S15,应用程序(application)使用该特征匹配,如为了在一个增强现实应用(application)中非常准确地判断拾取装置的位置和指向,将空间校准的虚拟3D对象集成入摄像图像中。
已有的解决方案
参考文献[3](Bleser,Gabriele,and Didier Stricker.“Advanced trackingthrough efficient image processing and visual–inertial sensor fusion.”Computers& Graphics33.1(2009):59-72)的视觉惯性跟踪方法应用惯性传感器测量摄像机自之前帧到当前帧的相对运动。这方面的知识是用于预测位置以及为逐帧跟踪特征而在图像空间中定义2D搜索空间。由于该技术仅使用相对摄像机转换的测量,它不适合摄像机位姿跟踪的初始化或视觉搜索任务。
因此,在执行视觉计算任务时,提供一致的信息系统和操作方法是有益的,这能在减少处理和功耗要求下实现更高的性能和更高的算法灵活性,从而能够减少电池消耗。
发明目的
本发明涉及一种根据权利要求1的信息系统和一种操作信息系统的方法。
发明内容
根据本发明的一个方面,一种图像特征匹配参考特征的方法包括以下步骤:提供一个由拾取装置拾取的当前图像,提供参考特征,其中每个参考特征包括至少一个参考特征描述符,在当前图像中确定当前特征并与每个当前特征的至少一个相应当前特征描述符相关联,并通过在每个相应当前特征描述符和每个相应参考特征描述符之间确定相应相似性度量将当前特征与至少一些参考特征匹配,在集成电路上由电路逻辑或可配置逻辑执行相似性度量的确定,电路逻辑或可配置逻辑为确定相似性度量处理逻辑函数。
根据本发明,提出一种新的方法,关于如何通过执行硬件中专用部件使视觉计算任务优化并且在实时运行中更加鲁棒。
本发明的进一步效果是基于先验数据(参考特征)改善光学跟踪系统的初始化,以便在减少处理和功耗要求下实现较高性能。
根据本发明的另一方面,提供了一种用于将图像特征与参考特征匹配的集成电路,它包括一个用于接收通过拾取装置拾取的当前图像中获得的相应当前特征的多个当前特征描述符的接口,一个用于接收相应参考特征的多个参考特征描述符的接口,和一个用于在每个相应当前特征描述符和每个相应参考特征描述符之间确定相应相似性度量的逻辑电路,用于匹配当前特征与参考特征,其中逻辑电路包括为确定相似性度量处理逻辑函数的电路逻辑或可配置逻辑。
在一个优选的实施例中,本方法在专门的硬件模块上实现,并且仅由通用处理器部分地执行。当然硬件模块可以是作为通用处理器的同一集成电路(也被称为硅片或芯片)的部分。
在一个优选的实施例中,专门的硬件模块是一个不可编程单元,其中,可编程指的是执行通用指令的动态序列。
在一个优选的实施例中,当前的图像可以是强度图像或深度图像。
当我们在这公开内容中通篇论及强度图像时,我们指的图像表示自环境反射的不同数量的光,大多取决于环境的材质和光线的情况。强度图像可以将强度按照不同的位分辨率(例如8位或高动态范围)编入个(如灰度级)或多于一个的通道(如RGB-红-绿-蓝)。
在下面的段落将描述几种可应用于基于本发明的匹配过程的方法,可在一幅图像中提供深度图像或包括诸如像素或特征的元素深度的稀疏深度信息。
根据一个在强度图像中确定至少一个元素的深度的实施例,具有已知相对位置和/或指向的至少两个拾取装置各拾取一个相应强度图像,其中在图像中寻找对应关系,并且拾取装置的相对位置和/或指向用于计算强度图像中至少一个元素深度,元素深度是至少一个对应关系的部分。在这种情况下,匹配过程将由两个通用步骤实施。首先匹配当前帧1和当前帧2的特征,以便从拾取装置1和2之间的给定位姿计算它们的深度信息。其后的步骤中,当前特征随后与参考特征相匹配,在匹配过程中利用深度信息或推导的位置信息。
根据另一在强度图像中确定至少一个元素的深度的实施例,至少一个拾取装置从不同位置拾取在不同时间点的强度图像,其中对应关系在不同图像中被找到,并且恢复不同图像之间的拾取装置的相对位置和/或指向以及对应关系的结构并将其用于计算强度图像中至少一个元素深度,元素深度是至少一个对应关系的部分。如上面的情况,匹配可以通过几个过程再次进行,最近的图像特征相互匹配,然后针对一个匹配过程中的附加信息与较早的参考特征合并。
根据另一在强度图像中确定至少一个元素的深度的实施例,提供至少一个强度图像数据库,其中已知对每个强度图像的全局深度,或至少一幅图像区域的深度,或一个或更多像素的深度,并将拾取装置拾取的强度图像(当前强度图像)与这个数据库相匹配。匹配的结果用于计算在当前强度图像中的至少一个元素的深度。
根据另一在强度图像中确定至少一个元素的深度的实施例,提供一个环境模型,以及当相对于环境模型(也许是个初始估计)获取强度图像时关于拾取装置的位置和/或指向信息,其中环境模型和关于拾取装置的位置和/或指向的信息相结合,并用于计算强度图像中至少一个元素的深度或位置估计。
根据另一在强度图像中确定至少一个元素的深度的实施例,提供至少一个用于检索深度信息或范围数据的传感器,以及至少一个传感器相对于拾取装置的至少一个相对位置和/或指向,其中深度信息或范围数据用于计算强度图像中至少一个元素的深度。优选地,传感器和拾取装置两者的位姿(位置和指向)和固有参数是已知的。
根据一个实施例,从至少一个已经由不同于拾取装置的第二拾取装置记录的参考图像中提取参考特征。根据一个实施例,至少一个参考图像的拾取时间是至少比当前图像的拾取时间早一天。
根据本发明的相似性度量,例如可使用距离度量。根据一个实施例,本发明的方法可以包括通过将距离度量与至少一个相应阈值比较来确定至少一个相应校验参数,其中校验参数用作确定是否执行匹配的条件,或用于影响距离度量。如果执行匹配,在匹配过程中使用相应已确定的相似性度量。
根据本发明的一个实施例,在集成电路上以流水线的方式并行执行用于确定相应距离度量或其部分,以及相应校验参数(将在下文更详细地解释)的计算。例如,集成电路的时钟信号的每个时钟周期计算相应距离度量和/或校验参数。
在本发明的一方面,确定相应相似性度量之后,该方法进一步包括存储自相似性度量确定之时最相似和次最相似的相似性度量,以及与最相似的相似性度量关联的相应当前特征描述符的指针。
根据一个实施例,最相似的相似性度量与次最相似的相似性度量的导数相比较,其中如果该比较满足预定条件,就在为进一步处理提供最相似和次最相似的相似性度量,指针,以及关联的参考特征描述符。
该方法可以进一步包括从已计算的距离度量来确定最小距离度量,以及存储相应当前特征描述符的指针,由此确定最小距离度量。
根据一方面,该方法可进一步包括在集成电路的存储器(例如SRAM)上存储当前特征描述符,其从存储器中检索无需等待状态。
根据一个实施例,该方法进一步包括与每个当前特征至少一个当前特征描述符向量关联的步骤,其中每个参考特征包括至少一个参考特征描述符向量,并在参考特征的每个参考特征描述符向量和当前特征的每个当前特征描述符向量之间计算相应相似度度量。
在一个可能的实现中,当前图像的至少一个像素设置为当前图像的相应当前特征,即图像的每一个像素可以代表一个特征。
根据本发明的一个实施例,该方法在图像的不同分辨率下运行。
根据本发明的一个实施例,第一特征提取处理可用于提取的第一组当前特征和为第一组当前特征而设的第一组当前特征描述符,且第二特征提取处理可用于提取第二组当前特征和为第二组当前特征而设的第二组当前特征,其中第一特征提取处理和第二特征提取处理,或第一特征描述符创建过程和第二特征描述符创建过程彼此不同,并且第一和第二组当前特征描述符的特征匹配过程由电路逻辑或可配置逻辑执行。第一和第二组的匹配过程理想情况下由电路逻辑彼此独立地执行。图3显示了整个过程,在此1..n表示不同的特征提取方法, 1..m表示不同的特征描述符处理过程和不同的所得到的描述符集匹配,并发生对象检测。所有这些,可在低功率子系统中根据本发明发生在低功率模式下和理想情况下。
如果检测到一个相关对象,高功率应用程序可被自动启动,并为用户提供相关信息。理想情况下,这可是音频导览或增强现实接口,如参考文献[6](Miyashita,T.,et al."An augmented reality museum guide."Proceedings of the7th IEEE/ACMInternational Symposium on Mixed and Augmented Reality.IEEE Computer Society,2008)中描述。
再一方面,该方法可包括在特征匹配之后进行几何验证以去除错误的特征匹配或去除分类情况中的误报。因此在参考数据库中,存储许多特征。每个特征都对应一类或先验对象。根据当前图像特征和一个先验对象的特征之间的匹配的数量和匹配的距离度量中的至少一个,对象可假设被匹配或一个以上对象被假设为候选对象。在这两种情况下,可开启高功率模式。可选地,本例中低功耗子系统能够导通几何验证,只有对象几何验证成功后,高功率模式才可开启。
根据本发明的一个实施例,该方法可进一步包括提供一组参考特征的步骤,其中每个参考特征包括至少一个第一参数,第一参数至少部分地表示相对于全局坐标系的参考特征的位置和/或指向,其中全局坐标系为地理坐标系或对象坐标系,或第一参数至少部分地表示相对于高度的参考特征的位置;与相应当前特征至少一个第二参数关联的步骤,第二参数至少部分地表示相对于全局坐标系的当前特征的位置和/或指向,或至少部分地表示相对于高度的当前特征的位置;和通过在至少一个第一参数和至少一个第二参数之间确定相似性度量,匹配当前特征与一组参考特征中至少一个参考特征的步骤。
例如,该方法可包括当匹配相应当前特征时,用一组参考特征内数量减少的参考特征定义搜索空间的步骤,其中搜索空间是基于至少一个第二参数确定。
根据一个实施例,该方法可以包括综合考虑特征提取过程中的指标的步骤,例如从特征提取器中产生符号。例如,SURF特征的符号相当于特征提取过程高斯函数的拉普拉斯算子的符号。
根据本发明的一个实施例,在构造特征描述符的方法中,自图像提取特征点来在2维描述(参数a0,a1)中获取特征点。以及使用由跟踪系统提供的关于拾取装置的空间信息(参数b0,b1,b2)为所提取的特征点计算特征指向。例如,跟踪系统给出拾取装置相对于地理坐标系的指向作为Euler角,且特征描述符应与万有引力校准。一个非常简单的获取所有特征的指向的方法是首先用Euler角将万有引力转换至属于拾取装置的坐标系,然后将它投射在图像平面上。从而,图像中万有引力的方向被计算并用于图像中所有特征。这种技术假定的正交投影通常不是这样。虽然结合摄像机的固有参数放松这一假设,但所有基于2D图像的技术假设在图像中所有可视的物体位于一个平面,因此是近似值。根据本发明的一个实施例,基于临近像素的像素强度计算以及相对于通用坐标系存储至少一个特征的一个或多个方向。在匹配阶段,仅相对于通用坐标系具有相似方向的特征进行匹配,以减少所需要的比较次数,并减少错误匹配率。
根据本发明的一方面,至少一个当前特征描述符或参考特征描述符是一个对象的较高级描述,使其尺度和/或旋转和/或光线不变。
根据本发明的实施例,该方法还可包括从强度图像中检测和描述特征的方法,其中由拾取装置和对象之间的距离产生的尺度是不变的,但对各种应用中对象的实际(物理)尺度敏感。因此建议在强度图像中使用元素的深度(例如,一个像素)为特征检测和/或描述在强度图像中特定元素(象素)。由此,特征可在实际(物理)尺度被检测和描述,提供一种相对于强度图像上标准尺度不变特征描述符的显著改进,没有对摄像机移动引入任何约束。在一个实施例中,该方法可包括提供由摄像机拾取的强度图像的步骤,提供一种用于确定强度图像中至少一个元素的深度的方法,在特征检测过程中检测强度图像中至少一个元素的深度,其中通过在一个尺度上处理强度图像的图像强度信息执行特征检测,该尺度取决于强度图像中的至少一个元素的深度,以及提供至少一个已检测特征的特征描述符。
在全局坐标系中的拾取装置的位置测量值可由GPS传感器/接收器,IR或RFID三角测量,或通过使用宽带或无线基础设施的定位法提供。在全局坐标系中的拾取装置的取向测量值可由惯性传感器,加速计,陀螺仪,罗盘,或机械的,电磁的,声学的或光学的跟踪系统中的至少一个提供。在本发明的上下文中,惯性传感器可诸如连续地提供包括对象或设备相对于环境的位置和/或指向的传感器信息,通过使用以下的任意组合:磁力计(例如指南针),运动传感器/旋转传感器(加速计/陀螺仪),重力传感器和提供此信息的其他传感器。
附图说明
本发明的实施例将参照如下附图进一步描述,在此:
图1显示了一个将一组当前特征与一组参考特征匹配的标准方法的流程图,
图2是用于说明与图1相关的特征的检测,描述和匹配的描述,
图3描述了一个特征匹配的过程的实施例和一个可能的应用,其中特定算法组成模块在低功耗下实施其他部分在高功耗下实施,
图4显示了应用本发明实施例的方法的示例性场景,
图5显示了根据本发明实施例在集成电路上匹配过程中相似性度量的确定的一种可能的实现,
图6描述了根据本发明的一个实施例在集成电路上匹配过程中相似性度量的确定的另一种可能的实现,
图7显示了如参考图5和6描述的过程的一般工作流程的流程图,
图8描述了根据一些过程步骤准备低功率模式,切换到低功率模式和切换到高功率模式的过程的实施例,
图9显示了根据本发明的一个实施例的在光学位姿判断中使用的利用物理度量特征描述符的深度提取机制的可能组合的流程图,
图10描述了根据本发明另一个实施例的方法的流程图,在此其先于匹配过程检验特征是否在理论上成立。
图11显示了低功耗子系统可能的体系结构,
图12显示了系统的一个可能的实施例,
图13显示了一个处理系统整体的一个实施例的概述,
图14显示了系统的另一可能的实施例。
具体实施方式
初始化过程在开始已经简要介绍过,并示于图1。在应用处理单元运行此过程中,通常要求超过1GHz的时钟率。因此,今天,由于电池快速耗尽,移动设备上的对象检测应用程序只可能短时间使用。
根据优选实施例,有可能分类对象(视觉搜索过程),这是当前图像与预先生成的类别描述匹配的过程,或有可能匹配独立特征(特征匹配过程),那么理想情况下独立特征可由应用处理单元使用来运行位姿优化过程。请记住,视觉搜索可以匹配每幅图像的多个特征为基础。同时,整幅图像可能是一个特征。这两种方法都被本发明支持。
根据本发明,视觉搜索过程和特征匹配过程都能以存在于数据库以及存在于当前图像中的不同特征和特征描述符工作。在这种情况下,不同特征使用不同特征提取和/或特征描述方法提取,并由硬件单元在两个独立执行上匹配(如图3所示)。例如,首先提取和匹配SIFT 特征,然后提取和匹配SURF特征。
图3描述了一个类似于上述关于图1的特征匹配过程以及用于位姿估计的匹配的一种应用,渲染3D对象或播放音频文件。渲染可发生在图形处理器单元(GPU)。
本发明的一个优点是省去了处理步骤的可能性,这在以前是必要的,或在一个完全不同的有利配置中运行它们的可能性。例如,特征提取过程中可被忽略不计或不作考虑,创造了非常大量的描述符。相反,每个象素或非常大量随机地选择的像素可被选作描述中心。在这种情况下,依据本发明每个像素或每个被选像素被看做是一个特征。代替选择随机像素,网格可以被用于提取描述符中心,例如,一行中每第10个像素,其中分析每个第10象素行。大量增加特征来匹配(约每幅图像10.000特征)导致在几千图像的测试数据库中成功初始化增加至76%。
有利的是,它可在特征对是否在理论上成立的过程期间被检测。这可以通过检查当前特征的估计位置相对于参考特征的记录位置实现。根据本发明的这一方面,建议缩小搜索空间或通过考虑其在世界坐标(或全局坐标)中的位置的(局部)信息影响为匹配由拾取装置拾取的当前图像的图像特征的距离测度。全局坐标系统可以是地理坐标系统或对象的坐标系统(例如,建筑物或产品包装或汽车),它有一个固定的高度或关于地球引力的固定的取向。作为可确定的特征的位置的自由度严重依赖于关于拾取装置的位置和指向的可利用信息,本发明的各方面的不同示例性实施方式相对于图4和图10在下面解释更多的细节。
本发明的另一方面考虑特征提取过程的指标,如从SURF特征提取器(高斯的正或负拉普拉斯算子)产生的符号。
本发明的另一方面,不仅考虑到了两个特征描述符之间的最小距离,还考虑最小距离和次最佳距离之间的距离。具体地,如果乘以一个小于0.9的标量因子后的次最佳距离大于最佳匹配的距离,两个描述符被认为是一个匹配。这样就避免了误报(错误地匹配特征)的发生,这将导致在位姿估计中错误分类或问题。
在本发明的另一个方面,当前图像的所有当前特征彼此相匹配,去除彼此非常相似(该距离度量低于一定阈值)的特征。过滤后的一组当前特征随后与参考特征匹配。
本发明非常适用于对象分类。本发明也非常适用于摄像机位姿初始化,在此缺失或不完整的关于摄像机的对象位姿的先验信息是可用的。
特征检测:
特征是在图像中的显著元素,它可以是一个点,一条线,一条曲线,一个连接区域或任何其它像素集。同样,一个像素,一幅图像的所有像素,或每一组已选像素可依据本发明被定义为一个特征。
特征检测算法是通常的显著性检测器。例如,他们发现线,边,或微分算子的局部极值。特征检测器可以被视为一个函数映射的区域像素响应。在文献中,这个区域被称为采样窗口或特征检测器的测量孔径。响应是决定哪些元素是特征哪些不是的最终阈值。为了在一定尺度下提取特征,要么采样窗口可被相应地度量,要么图像在计算特征检测器的响应之前被度量。特征的尺寸随后被定义为用于检测它的采样窗口的尺寸。
对于关键点检测方法的常见例子包括高斯的拉普拉斯(LoG),高斯差函数(DoG),Hessian 行列式(DoH),最大稳定的极值区域(MSER),Harris特征,或基于学习的转角检测器如FAST。
3D特征也代表了用于本发明的一个可能的数据源。3D特征可通过许多方法从深度图像或 3D模型中提取,例如识别局部极值。
在本发明的一方面,整个图像也可被看作一个特征。
在本发明的另一方面,3D数据和强度数据的组合可被用作输入数据,例如在参考文献[19] (Wu,Changchang et al.“3D model matching with Viewpoint-InvariantPatches (VIP).”IEEE Conference on Computer Vision and Pattern Recognition(2008)0(2008): 1-8)中所述。
特征/图像描述
已提取的视觉特征(特征点,边缘,转角,局部极值等)必须是可重复的,这意味着尽管视点(方向,尺度等),光线条件和/或图像噪声不同,它们的提取应该是可能的。
匹配的过程包括发现至少一个自两个或更多图像提取的相应视觉特征。它常常需要创建描述符,它们允许相对于一些相似点或距离度量,不同图像中相同的自然特征以类似的方式描述。一些特征点描述符的概述和比较在参考文献[21](Mikolajczyk,K.andSchmid,C.,,A Performance Evaluation of Local Descriptors.”2005IEEETrans.Pattern Anal.Mach. Intell.27,10(2005):1615-1630)中给出。一旦为每个已提取的特征创建了一个或多个描述符,它们根据相似度或距离度量进行匹配:对在查询图像中的每个特征,匹配使用最接近的描述符或基于参考文献[1](Lowe,David G.“DistinctiveImage Features from Scale-Invariant Keypoints.”International Journal ofComputer Vision60.2(2004): 91-110)的比率检验法分配。
参考文献[18](Bosch,A,Andrew Zisserman,and X Munoz.“Representing shapewith a spatial pyramid kernel.”Image Processing5(2007):401–408)描述了一种代表局部图像形状及其空间布局的描述符,连同一个空间金字塔内核。
参考文献[20](Uchiyama,Hideaki,and Marchand,Eric.“Toward AugmentingEverything:Detecting and Tracking Geometrical Features on Planar Objects.”2011 International Symposium on Mixed and Augmented Reality(2011):17-25)描述了一种基于特征的空间关系的描述符,这也是一种可能性。该方法是在一个集合Pn中选择一个点X的 n个最近邻。从Pm中选择m<n个点。计算所有可能的基于m个点中的f个点(对于相交比率 f=5,以及对于仿射不变量f=4)的不变量。在固定顺序中不变量的序列是点X的一个描述符。该仿射不变量是两个三角形之间的面积之比:A(a,c,d)/A(a,b,c)。透视不变量是三角形面积的相交比:(A(a,b,c)*A(a,d,e))/(A(a,b,d)*A(a,c,e))。在参考文献[20](Uchiyama, Hideaki,and Marchand,Eric.“Toward Augmenting Everything:Detectingand Tracking Geometrical Features on Planar Objects.”2011InternationalSymposium on Mixed and Augmented Reality(2011):17-25)中,一个散列过程用于匹配特征,其可不作考虑,使用我们的引擎。
参考文献[15](Taati,Babak:”Generation and Optimization of Local ShapeDescriptors for Point Matching in3-D Surfaces.”Thesis(Ph.D,Electrical&Computer Engineering)-Queen's University,Kingston,Ontario,Canada,August2009)给出了很好的综述关于3D和基于用于匹配的描述符的深度图像。
本发明总体来说,描述符可有利地为一个向量,其源于一个2D图像或2D图像的一部分或3D数据,其创建不只是将像素转换到不同颜色空间或标准化其值。在本发明的另一方面,描述符源自直方图,统计或关于像素,形状或深度值的相关关系。匹配过程:
该匹配过程是本发明的解决方案中一个关键组成部分。一个可能的布局基于图5所示的实施例。一个可能的流程图由图7所示。根据一个实施例,它结合了下列计算:
根据本发明作为相似性度量,例如,可使用距离度量。根据我们的发明,D(c,r)描述了在两个描述符之间的有利距离度量。具体地说,它描述了当前特征c的当前特征描述符d(c) 和参考特征r的参考特征描述符d(r)之间的距离度量。例如,如上文相对于图1所描述的,当前特征c和参考特征r以及它们的特征描述符d(c)和d(r)被确定并分别提供。
通常,相应距离度量D(c,r)可在包括相应当前特征描述符d(c)的相应当前特征c的一个或多个属性和包括相应参考特征描述符d(r)的相应参考特征r的一个或多个属性之间确定。
本发明的方法可包括在每个相应当前特征描述符d(c)和每个相应参考特征描述符d(r) 之间确定相应第一距离度量d,用于相似性度量D(c,r)的确定。
根据一个实施例,本发明的方法可包括在当前图像中相应当前特征描述符d(c)的位置信息x(c)和/或y(c)和通用坐标系中相应参考特征描述符d(r)的相应位置信息x(r),y(r) 之间确定相应第二距离度量(此处x和/或y),用于相似性度量D(c,r)的确定。例如,这可被计算为由d(c)描述的相应当前特征的3D位置信息x(c)和由d(r)描述的相应参考特征的 3D位置信息x(r)之间的Euclidian距离。
根据进一步的实施例,本发明的方法可包括确定相应第三距离度量z来表示当前图像中相应当前特征描述符d(c)的位置信息z(c)和通用坐标系中相应参考特征描述符d(r)的位置信息z(r)之间的角度,用于相似性度量D(c,r)的确定。例如,这可被计算为由摄像机中心定义的第一向量z(c)及其相应当前特征的3D位置信息和由摄像机中心定义的第二向量 z(r)及其相应参考向量的3D位置信息之间的标量积。
在另一实施例中,z可表示关于全局坐标系的摄像机指向和特征的独立方向属性之间的角度,例如源于一个已知表面的曲面法线,在其上定位特征。
根据进一步的实施例,本发明的方法可包括在当前图像中相应当前特征描述符d(c)的标量属性u(c)和/或v(c)与相应参考特征描述符d(r)的相应标量属性u(r),v(r)之间确定相应第四距离度量(此处,u和/或v),用于相似性度量D(c,r)的确定。例如,这可从SURF(高斯正或负拉普拉斯算子)的符号计算。
根据进一步的实施例,本发明的方法可包括通过至少一个相应第一,第二,第三和第四距离度量与至少另一个相应第一,第二,第三和第四距离度量组合确定相应组合距离度量D(c, r),用于相应相似性度量的确定。
例如,D(c,r)可以是Δu,Δv,Δx,Δy,Δz,和/或Δd的组合。
P(c,r)描述了本发明的匹配过程中另一个适用的可选部分。它可用于检查两个描述符是否应完全匹配。通常,这是有助于避免错误匹配。P检查,是否满足特定条件,取决于给定的阈值。
根据一个实施例,本发明的方法可包括确定检查参数P,其为确定是否特征对c,r与当前特征之一和参考特征之一有资格为有效匹配而计算。
根据一个实施例,本发明的方法可包括通过将至少一个相应第二距离度量Δx和/或Δy,第三距离度量Δz和第四距离度量Δu,Δv与至少一个相应阈值相比较来确定至少一个相应检查参数P(c,r),其中该检查参数P(c,r)用于确定是否具有当前特征之一和参考特征之一的特征对c,r有资格为有效匹配。
例如,该方法可以进一步包括加权相应当前特征c和参考特征r的至少一个属性,或在一个或多个属性之间的至少一个距离度量。进一步,该方法可包括当确定组合距离度量D(c,r) 时,加权至少一个第一,第二,第三和/或第四距离度量。
具体地,每个上述组件可给予权重(如,wu,wv,wx等),这取决于为系统提供的可用信息。这里所使用的信息可以是来自特征提取过程或来自在全局坐标系或摄像机坐标系(例如用于利用对极几何约束的立体匹配)中当前特征的位置估计。如果这种信息不可用,在公式 D(c,r)中的相应权重可被设置为零或一个值,例如取决于信息的不确定性。如果信息不完整或没有给出有关Δu,Δv,Δx,Δy,Δz信息或没有可用信息,阈值可被设置为一个很高的值或进行缩放,这取决于不确定信息。
根据一个实施例,距离度量D(c,r)的部分如上所述,如Δu,Δv,Δx,Δy,Δz和Δd可如下确定:
Δu=(u(c)-u(r))2
Δv=|v(c)-v(r)|
为特征描述符给定长度48应被理解为一实施例的可能的实现,不应被理解为限制本发明。自然地,该长度可以设为更长或更短。类似的,可计算和考虑其他或额外类型的距离度量。
根据本发明的实施例,如上述公式所述,计算相应距离度量可包括计算偏差之和或平方差之和,用于经由相应长度或维度(i)确定相应距离度量。在二进制描述符的情况下,该距离度量还可包括计算Hamming距离。
根据一个实施例,检查参数P(c,r)和距离度量D(c,r)可如下确定:
P(c,r)=Δu<θu∧Δv<θv∧Δx<θx∧Δy<θy∧Δz>θz
D(c,r)=wu·Δu+wv·Δv+wx·Δx+wy·Δy+wz·Δz+wd·Δd
例如,字段u,v,x,y,z和d,可以是整数或任意位宽的浮点存储单元。在本发明的一个有利实现,描述符字段di均为一个字节长。
硬件是专门为有效地解决整个描述符匹配问题而特别设计的,不只是加速绝对差之和运算。由于缓存失配等原因,如果只有一部分进行了优化,几乎不能实现性能增益。因此,该硬件包括它自己的存储器(图5:SRAM6),载入当前描述符的向量(当前的描述符已从当前图像提取)。
相对于上面描述的计算相应相似度度量,距离度量,组合距离度量,检查参数等函数或步骤,如上文所述,根据本发明的集成电路包括相应单元或集成电路上实现的执行相应函数或步骤的单元。这种单元的例子在下面参照图5和图6更详细地描述。但是,这些例子不应被理解为限制本发明,因为技术人员应当理解,根据本发明的指导在电路逻辑或可配置逻辑上实现所描述的函数或步骤具有多个选择。
根据图5和图7,显示了基于本发明在匹配过程中确定相似度度量的一个可能的实施方案。该相似性度量在集成电路1上确定,其可在如图5所示的实施例中配置。具体地,集成电路1包括电路逻辑或处理用于确定相似度度量的逻辑函数的可配置逻辑。本发明的一个实施例中运行如下:
通过外围接口2,主处理器(未显示)访问存储了地址,阈值和权重(其用法在后面讨论)的配置寄存器3。然后它通过写入虚拟触发寄存器启动操作。外部存储器接口4从外部DRAM中读取向量集C(在当前图像中找到的一些当前描述符向量c)和向量集R(基于参考图像创建的一些参考特征描述符向量r)。如上面所述,当操作启动时向量集C被完全读入内部SRAM6。来自向量集R的向量以内容“向量r”逐一读入寄存器7。来自SRAM6的向量随后以内容“向量c”逐一读入寄存器8。如上所述,单元9“减,乘,加”计算中间值 u,v,x,y,z,d。在比较单元10中,这些值与阈值相比较(“比较,逻辑与”),并在单元 11中加权(“乘,加”),如上所述,得到值P(c,r)和D(c,r)。在已从当前图像中提取的当前描述符向量c多于SRAM6能一次保存的情况下,当前描述符向量可被分成两个或更多的部分(c1,c2,…cn)且可一个接一个存入SRAM6并通过集成电路1处理。
在单元12中,判断P是否是真的。如果P为真,则D与寄存器13中的值D1,D2进行比较,该寄存器13被更新为包含的最小值D1和之前已确定的值D(c,r)的第二最小值D2,且最小值D1的指针c被存为cmin。在来自SRAM6的所有向量c都被处理后,在单元14中检查条件D1<t*D2。换句话说,判定是否D1和D2的比率降至一个自配置寄存器3中定义的阈值t以下,以判定是否D1显著小于D2。如果该条件为真,那么一个新的元组参考文献 [r,cmin,D1,D2]被发送至输出缓冲器15。当输出缓冲器15满了,它的内容通过外部存储器接口4和存储器总线写入外部存储器中。这个过程的总体控制通过控制单元16执行。
图5显示了该组件的一个实施例的概观,而图7显示了如上面所述处理的一般工作流程。
除了匹配组件(图11,1000)之外,根据本发明的一个实施例,如图11所示可有更多的作为低功耗子系统的部分的组件。一个小的CPU(1400),也称引擎控制单元(ECU)可控制不同专门处理单元。它也可接管一些算法任务,如创建已发现特征的描述符。
扩展单元(1300)可产生具有来自原始摄像图像或来自已缩放图像的缩放分辨率的图像。这也可帮助减少总体处理需求,通过工作在一个更小分辨率图像上,并且另外允许创建尺度不变量描述符。具有多个图像,其他过程也可在不同图像上并行实施。
尺度不变量可通过具有提取和/描述的算法可替换地实现,其工作在不同尺度,例如通过缩放转角提取过程的滤波器尺度。
在本发明的一个实施例中,一个或更多特征提取处理单元(1200)从至少一幅图像或在不同尺度下的图像中提取特征。在本发明的一个实施例中,至少一个描述符生成处理单元(1100)基于特征和至少一幅图像设立描述符。根据本发明的一个实施例,不同专门处理单元(1100,1200,1300)被连接到本地存储单元(1500),例如保存几个缓冲区(例如几个图像行乃至一幅完整的图像)。根据一个实施例,通过直接存储访问控制器(1600),本地存储单元(1500)能与子系统(2100)外部的存储区(例如动态存储器)交换数据。根据一个实施例,主机接口(1700)提供允许应用处理单元来控制和配置子系统的用途。这不是为任何应用程序处理单元的处理加强器,并且可在处于低时钟速率的高功率模式或低功率模式下完成。
如上所述的组件或至少一个组件以及它们的功能(在本发明的上下文中也称为硬件引擎)通过处理逻辑函数的电路逻辑或可配置逻辑在集成电路上实施。换而言之,如上所述,在检测过程中执行这些功能,可直接利用相应的数字电子电路实施,尤其是利用电路逻辑或可配置逻辑。这种电子电路可使用数字技术的集成电路以灵活的方式实施,在其中可执行所期望的逻辑电路。也就是说,如上所述,对于如本发明的功能的集成,一个现有的处理系统在适当的位置可提供或补充至少一个可编程逻辑电路,诸如PLD(可编程逻辑设备)或FPGA(现场可编程门控阵列)。这样的逻辑电路可在诸如所使用的集成电路芯片上实现,例如,在诸如移动电话的移动设备中。
图13显示了根据一个实施例的一个可能的总体处理系统的概述。该处理系统可作为芯片上的系统(SoC)实施。低功耗子系统(2100)通过外围接口总线连接至少一个应用处理单元,也称APU(2000)。例如一个APU可以是一个ARM Cortex A9CPU核心。根据一个实施例,也可能取决于低功率模式或高功率模式,不同的APU运行操作系统,例如在高功率模式下的ARM Cortex A9和在低功率模式下的ARM Cortex M。根据一个实施例,另有互连总线将低功耗子系统连接到一个动态存储控制器。通过外围接口总线,APU可连接到诸如陀螺仪的外围设备。
图6显示了在集成电路20上匹配器(1000)的可能实现的一个实施例。本实施例为了不仅运用基于点的短描述符或其它短描述符,而且运用如基于形状的描述符的更长描述符而开发,并且它扩展了上述以诸如3000字节长的较长向量工作的方法。就被用作图5的实施例的相同组件而言,相应部分被标以相同标号。
在图5的实施例的变型中,增加了保存长向量r的寄存器组21和分别保存参数Pacc和 Dacc的两个累加寄存器22,23。长向量c和r只有部分ci和ri被一次进行比较。函数Pi(c,r)和Di(c,r)递增计算然后在Pacc和Dacc中的累积。在D1和D2被如以前那样更新之前,最终值P和D随后被从这些寄存器22,23中读取。这个扩展允许长得多的向量以最小的额外硬件工作来比较。图6显示了扩展引擎组件的概述。
因此,根据本发明的一个方面,提供了一种保存参考特征描述符向量R和两个累加寄存器22,23的寄存器组,用于保存相应检查参数(Pacc)和一个相应距离度量(Dacc),其中相应当前特征描述符向量C和参考特征描述符向量R只有部分(ci和ri)被一次进行比较。
取决于SRAM6的可用大小或在整体识别/初始化管道中使用的不同描述符的数量,引擎能被多次启动。例如,它能首先找到基于点的描述符之间的最佳匹配,以及随后为基于形状的描述符找到最佳匹配,也使用不同阈值和权重。
根据本发明的一个实施例,P和D的计算都以流水线方式完全并行执行。例如,整体吞吐量是每个时钟周期一个向量比较:伴随每个循环,一个新的矢量c从SRAM6中读取。管道完成之后,也在每个循环更新D1,D2,cmin的值。计算机视觉任务引擎的灵活性也是在两个3D点云之间寻找位姿的优势,例如使用诸如Microsoft Kinec的硬件采集。
图8显示了在高功耗和低功率模式之间进行切换的方法概述。在步骤S41中的应用程序为系统的需要配置系统。特别是,提供参考特征和可下载多媒体数据。然后系统可移至低功率模式(步骤S42)。这可包括降低应用处理单元的时钟速率和断开外围设备。在低功率模式下,系统可监看图像的触发事件(可选步骤S43)。可以是例如一直等待直至该设备移动,根据加速计数据,是低于一定阈值并高于第二阈值,指示用户喝咖啡时正在寻找一个对象,但并没有将该设备放在桌上。如果步骤S43不执行,可在一定节奏下拍摄摄像图像,如每100ms。
在步骤S44中,至少一幅图像由拾取装置拍摄(若是立体照相机,两个图像可被同时拍摄)。在步骤S45中,分析图像并试图与参考对象的数据库相匹配。假如满足特定的条件,在至少一个候选对象上实施几何验证。根据一个实施例,几何验证可在低功耗子系统或由处于低时钟速率的应用处理单元实施。如果未找到对象,系统等待另一个触发事件(步骤S43)或者经过一段时间通过拍摄新图片来重复这一过程(步骤S44)。如果已经发现一个对象,在步骤S46中系统移至高功率模式(唤醒)。根据一个实施例,这可能意味着,增加主应用处理单元的时钟速率,开启显示器和额外的传感器并增加摄像机的帧速率(例如,至30赫兹)。然后,一个高功率应用程序可运行(步骤S47)。例如为了附加虚拟对象提供关于对象的音频数据或计算摄像机的位置和指向并刚性连接显示器。
在步骤S48中系统可确定它是否应当进入低功率模式。这可能从用户的行动来确定,例如在摄像机前方挥手或通过语音命令。另外,在已呈现关于该对象的所有相关信息之后,系统可移至低功率模式,例如:播放的音频文件或通过增强现实技术显示的动画序列。在一定的时间后系统也可简单地进入低功率模式,例如60秒。这个时间可在初步识别之后,在对象根本没有在摄像机中识别之后,或在多媒体数据已经播放结束之后开始起算。
图12示出本发明的一个实施例的一种可能的硬件设置。用户在眼睛(500)前方佩戴一个附着于他头部(400)的显示器(300)。该显示器(300)应当被刚性地与一个具有视野(600)的摄像机(100)连接。摄相机大致指向用户的观察方向(200)。Soc(图13)可以是摄像机和显示单元的一部分,或可以位于一个设备,例如与头部佩戴设备无线连接的智能手机。
另一种可能的硬件设置如图14所示。本发明特别适合于穿着配备有摄像机的信息系统 3200的用户3100步行通过一个展出图像的博物馆的情景(如图14所示)。可穿戴信息系统 3200挂在用户3100胸部且信息系统的摄像机指向用户前方的空间。当信息系统处于低功率模式时,用户开始步行通过博物馆。用户现在可以享受步行通过博物馆的时间,而不用担心他的信息系统的电池。根据本发明,该信息系统能够为感兴趣的对象(例如图像3300)扫描用户的环境。这可以做到几乎不消耗功率。只要图像3300进入摄像机的视野中,信息系统可“唤醒”并移至一个高功率模式,例如为了下载并使用增强现实技术显示关于图像3300的感兴趣的内容,或为了启动一个解释图像3300的音频片段。
应用:
图9显示了一个描述符的可能应用,依靠深度信息,为本发明的一个更复杂的实施方式提供一个例子。
根据本发明的一方面,当匹配特征时一个图像中诸如像素的元素的深度可被用作进一步信息。通常,图像中元素的深度(例如像素)可被定义为关于被映射在这个元素(像素)上的物理表面与拾取装置之间的距离,特别是与拾取装置的光学中心之间的距离。
图9显示了为在光学位姿估计中使用的具有物理尺度特征描述符的深度提取机制的可能组合,例如为创建室外AR体验。如图9中,在这个例子中使用粗糙度传感器数据和环境模型提取深度。
在步骤S111中,强度图像I1由拾取装置获取或加载。此外,当获取强度图像I1时该拾取装置的初始位姿从诸如GPS定位和指向传感器信息的粗糙度传感器测量值中估计。最后,提供一种包括3D数据和图像数据(类似于Google Street view)的先进的环境模型(步骤 S112)。图像数据是唯一必要的,如果用于跟踪的参考模型(例如,已经含有特征的3D坐标和特征描述符)还没有被预先创建。在步骤S113中,环境模型使用由步骤S111提供的假定的摄像机位姿来加载,即该环境模型是从强度图像I1中的摄像机视点呈现的。在步骤S114中,深度信息是从环境模型中重新得到并用于步骤S115来计算的检测到的特征的真实尺度描述符。换句话说,使用与图像I1一同记录的深度信息,以一个诸如1m的固定尺度提取真实尺度特征。由于环境模型结合3D数据和图象数据,可创建具有尺度为1m的物理尺度特征的参考3D模型(步骤S116,这当然可以提前完成)。
使用优化算法,在环境模型的坐标系中I1改善的位姿能够被计算来。然后改善的位姿能被用于一个应用程序,例如旅游数据的增强现实技术可视化,或可选择地用于改善步骤S111 和迭代步骤直到位姿的变化已经趋于低于定义的特性阈值。
已经找到的特征匹配然后可被用于包括对象检测,对象分类,对象定位和全局坐标系中摄像机的定位的应用程序。
后者也被称为“自定位”,例如可通过诸如RANSAC,PROSAC或M-Estimators的鲁棒位姿估计方法执行。注意这种方法需要一种固有摄像机参数的估计,特别是焦距。根据关于拾取装置的位置和/或指向以及像素深度的可用信息,本发明构思出不同的可能的实施。它们的不同在于为缩小搜索空间的空间约束,或在匹配过程中P检查取决于对给定当前特征潜在的匹配的参考特征的位置和/或指向。典型例子,我们认为特别重要的,将在下面详细地说明。
在与拾取装置关联的坐标系中提供一个引力向量的度量,例如利用惯性传感器,和当前摄像图像中的当前特征的深度,例如通过立体深度方法,根据本发明的各方面的方法来计算这个特征的相对或绝对高度。
图像中一个特征的2D位置连同固有摄像机参数能够在与拾取装置关联的坐标系内定义一个3D射线。由于另外的特征深度可知,在摄像机校准坐标系统中特征的3D位置可计算。之后从拾取装置的光学中心到3D特征位置的向量投影到标准化引力向量,得到特征的高度。
如上面所述的方法得出关于拾取装置的相对高度测量。为了计算特征的绝对高度,需要加上拾取装置的绝对高度。两者都可以测量,例如通过GPS或气压计,或可基于如上所述的假设。
图4显示了一种本发明这方面的可能的实现。具体地,图4显示了提供了在装置坐标(即拾取装置坐标系的坐标)中引力向量G的拾取装置CD,以及特征F1的深度D。给定这两条信息,可计算关于拾取装置CD的特征F1的相对高度。具体地讲,在图像中特征F1的2D位置连同固有摄像机参数能在与拾取装置关联的坐标系中定义一个3D射线。由于特征F1的深度D是已知的,在摄像机校准坐标系统中的特征的3D位置可以被计算出来。之后将从拾取装置CD的光学中心到特征F1的3D特征位置的向量投影在标准化引力向量上得到特征F1的相对高度RA。加上拾取装置CD的(绝对)高度CDA得到特征F1的绝对高度AA。类似的计算可用于特征F2的高度计算。
围绕当前特征F1的高度AA定义与当前特征F1一致的参考特征的搜索空间SS。注意在这种方法中,参考特征F2不被看做是一个可能的匹配,尽管它看起来与前特征F1非常相似,因为它没有落入搜索空间SS。当然搜索空间可通过在已提出的硬件引擎中的P的计算控制。由此,根据这个方面本发明可减少错配的可能性。
根据本发明的一个方面,一个非常大的参考特征集(例如数十亿或上百万)首先通过软件的方法(例如使用GPS数据作为输入)减少到一个较小的集合(如几千或几十万),之后用硬件引擎匹配。
参考文献:
Lowe,David G.“Distinctive Image Features from Scale-InvariantKeypoints.”International Journal of Computer Vision60.2(2004):91-110.
Kumar,Ankita et al.“Experiments on visual loop closing usingvocabulary trees.”2008IEEE Computer Society Conference on Computer Vision andPattern Recognition Workshops0 (2008):1-8.
Bleser,Gabriele,and Didier Stricker.“Advanced tracking throughefficient image processing and visual–inertial sensor fusion.”Computers&Graphics33.1(2009):59-72.
Chen,David M et al.,,“City-scale landmark identification on mobiledevices”.2011IEEE Computer Society Conference on Computer Vision and PatternRecognition(2011).
Reitmayr,G.and T.W.Drummond.“Initialisation for Visual Tracking inUrban Environments.” 20076th IEEE and ACM International Symposium on Mixedand Augmented Reality(2007):1-9.
Miyashita,T.,et al."An augmented reality museum guide."Proceedings ofthe7th IEEE/ACM International Symposium on Mixed and Augmented Reality.IEEEComputer Society,2008.
Schall,Gerhard et al.“Global pose estimation using multi-sensorfusion for outdoor Augmented Reality.”20098th IEEE International Symposium onMixed and Augmented Reality (2009):153-162.
Arth,Clemens et al.“Wide area localization on mobile phones.”20098thIEEE International Symposium on Mixed and Augmented Reality(2009):73-82.
US7768534B2.
Fischler,M.A.and Bolles,R.C.."Random Sample Consensus:A Paradigm forModel Fitting with Applications to Image Analysis and Automated Cartography."1981Communications of the ACM24(1981):381-395.
Chum,O.and Matas,J."Matching with PROSAC-progressive sampleconsensus."2005 Proceedings of IEEE Conference on Computer Vision and PatternRecognition(2005):220–226.
Hinterstoisser,Stefan et al."N3M:Natural3D Markers for Real-TimeObject Detection and Pose Estimation,"20072007IEEE11th InternationalConference on Computer Vision(2007):1-7.
Taati,Babak:”Generation and Optimization of Local Shape Descriptorsfor Point Matching in 3-D Surfaces.”Thesis(Ph.D,Electrical&ComputerEngineering)-Queen's University,Kingston, Ontario,Canada,August2009.
Wagner,Daniel et al.“Pose tracking from natural features on mobilephones.”20087th IEEEACM International Symposium on Mixed and AugmentedReality(2008):125-134.
Smith,Ross,Wayne Piekarski,and Grant Wigley.“Hand Tracking For LowPowered Mobile AR User Interfaces.”Proceedings of the Sixth Australasianconference on User interfaceVolume40 (1999):7-16.
Bosch,A,Andrew Zisserman,and X Munoz.“Representing shape with aspatial pyramid kernel.”Image Processing5(2007):401–408.
Wu,Changchang et al.“3D model matching with Viewpoint-InvariantPatches(VIP).”IEEE Conference on Computer Vision and Pattern Recognition(2008)0(2008):1-8.
Uchiyama,Hideaki,and Marchand,Eric.“Toward Augmenting Everything:Detecting and Tracking Geometrical Features on Planar Objects.”2011International Symposium on Mixed and Augmented Reality(2011):17-25.
Mikolajczyk,K.and Schmid,C.,,A Performance Evaluation of LocalDescriptors.”2005IEEE Trans.Pattern Anal.Mach.Intell.27,10(2005):1615-1630
Leutenegger,Stefan,Margarita Chli,and Roland Y.Siegwart."BRISK:Binaryrobust invariant scalable keypoints."Computer Vision(ICCV),2011IEEEInternational Conference on.IEEE,2011.

Claims (22)

1.一种具有至少一个摄像机的可穿戴信息系统,所述信息系统可操作的具有低功率模式和高功率模式,其中所述高功率模式是响应于识别来自一组参考图像的参考对象与所述至少一个摄像机的至少一个视野中的至少一个对象的匹配而激活的,并且
其中在先前所述至少一个对象在所述至少一个摄像机的所述视野中时所述信息系统被用户从所述高功率模式设置为低功率模式的情况下,响应于识别所述参考对象与所述至少一个视野中的至少一个对象的匹配不激活所述高功率模式。
2.如权利要求1所述的信息系统,所述系统包括一头戴式显示器和至少一个附着于所述显示器为接收所述头戴式显示器的取景方向上的信息而配置的摄像机。
3.如权利要求1所述的信息系统,其中所述摄像机能够记录强度信息、色彩信息、深度信息中的至少一种。
4.如权利要求1所述的信息系统,其中所述系统在低功率模式下,至少一个应用处理单元的时钟速率低于在高功率模式下的时钟速率。
5.如权利要求1所述的信息系统,其中所述系统在低功率模式下,至少一个外围子模块能被断接电源。
6.如权利要求1所述的信息系统,其中所述系统包括至少一个应用处理单元和附加处理单元,识别在至少一个摄像机的至少一个视野中的对象的匹配检测由所述附加处理单元实施。
7.如权利要求6所述的信息系统,其中所述附加处理单元包括低功率子系统。
8.如权利要求6所述的信息系统,其中所述附加处理单元包含至少之一的:CPU、用于匹配特征的电路逻辑、至少一个用于从图像中提取特征的电路逻辑、至少一个用于描述从图像中提取的特征的电路逻辑、至少一个用于生成摄像图像的不同分辨率图像的缩放单元、用于存储在图像中找到的当前特征的存储器以及用于存储参考特征的数据库的存储器。
9.如权利要求1所述的信息系统,其中所述对象并不是人。
10.如权利要求1所述的信息系统,其中所述至少一个对象的检测包括来自摄像图像的特征的提取,建立所述特征的特征描述符以及将所述特征与来自先验对象的特征的事先存储的特征描述符相匹配。
11.如权利要求10所述的信息系统,其中所述特征为点特征。
12.如权利要求10所述的信息系统,其中所述描述符为旋转不变量。
13.如权利要求10所述的信息系统,其中通过在原始摄像图像的不同尺度版本上执行特征提取和特征描述,或通过运行特征提取和描述算法在不同尺度下提取信息,所述描述符为尺度不变量。
14.如权利要求1所述的信息系统,其中所述系统被配置为基于由另一传感器记录的移动来记录图像并且尝试检测至少一个对象。
15.如权利要求14所述的信息系统,其中所述另一传感器包括加速度计、指南针或者陀螺仪中的至少一个。
16.如权利要求1所述的信息系统,其中所述系统能被用户置于低功率模式。
17.如权利要求16所述的信息系统,其中低功率模式通过手势识别激活。
18.如权利要求17所述的信息系统,其中手势识别是经由手或手臂的运动,该运动为“擦”过被检测对象。
19.如权利要求16所述的信息系统,其中所述低功率模式由用户使用语音命令激活。
20.如权利要求1所述的信息系统,其中在所述高功率模式,所述系统显示关于被检测对象的增强现实信息。
21.如权利要求1所述的信息系统,其中当在摄像图像中不再检测被检测对象和多媒体内容已被显示时,所述低功率模式自动激活。
22.如权利要求1所述的信息系统,其中根据传感器测量值或用户互动,从远程服务器下载新的参考特征。
CN201410060643.5A 2013-02-21 2014-02-21 具有至少一个摄像机的可穿戴信息系统 Active CN104007817B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP13000872 2013-02-21
EP13000872.5 2013-02-21

Publications (2)

Publication Number Publication Date
CN104007817A CN104007817A (zh) 2014-08-27
CN104007817B true CN104007817B (zh) 2019-02-12

Family

ID=47842994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410060643.5A Active CN104007817B (zh) 2013-02-21 2014-02-21 具有至少一个摄像机的可穿戴信息系统

Country Status (2)

Country Link
EP (1) EP2770783B1 (zh)
CN (1) CN104007817B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI534656B (zh) * 2014-08-28 2016-05-21 財團法人資訊工業策進會 辨識裝置、智慧裝置以及資訊提供方法
CN104834375A (zh) * 2015-05-05 2015-08-12 常州恐龙园股份有限公司 基于增强现实的游乐园指南系统
CN106705837B (zh) 2015-11-17 2019-12-06 华为技术有限公司 一种基于手势的物体测量方法及装置
CN105374240A (zh) * 2015-11-23 2016-03-02 东莞市凡豆信息科技有限公司 一种幼儿自助阅读系统
CN105374241A (zh) * 2015-11-23 2016-03-02 东莞市凡豆信息科技有限公司 一种幼儿自助阅读系统
WO2017127494A1 (en) 2016-01-22 2017-07-27 Corning Incorporated Wide field personal display
KR102641894B1 (ko) 2017-02-03 2024-02-29 삼성전자주식회사 이미지를 촬영하는 센서 및 그 제어 방법
JP2018160799A (ja) * 2017-03-23 2018-10-11 ソニーセミコンダクタソリューションズ株式会社 制御装置、制御方法、プログラム、及び、電子機器システム
IT201700058961A1 (it) * 2017-05-30 2018-11-30 Artglass S R L Metodo e sistema di fruizione di un contenuto editoriale in un sito preferibilmente culturale o artistico o paesaggistico o naturalistico o fieristico o espositivo
US10976551B2 (en) 2017-08-30 2021-04-13 Corning Incorporated Wide field personal display device
US10962783B2 (en) * 2018-06-19 2021-03-30 Apple Inc. Electronic devices having electrically adjustable optical layers
US11726324B2 (en) * 2018-08-31 2023-08-15 Apple Inc. Display system
KR102391656B1 (ko) * 2019-05-07 2022-04-28 인핸드플러스 주식회사 카메라 모듈 및 무선통신 장치를 활용하여 이벤트감지를 수행하는 웨어러블 기기
US11232834B2 (en) 2019-10-29 2022-01-25 Qualcomm Incorporated Pose estimation in extended reality systems
CN111008305B (zh) * 2019-11-29 2023-06-23 百度在线网络技术(北京)有限公司 一种视觉搜索方法、装置以及电子设备
CN111861275B (zh) * 2020-08-03 2024-04-02 河北冀联人力资源服务集团有限公司 家政工作模式的识别方法和装置
WO2023245133A1 (en) * 2022-06-17 2023-12-21 Snap Inc. Efficient multi-scale orb without image resizing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810099A (zh) * 2011-05-31 2012-12-05 中兴通讯股份有限公司 增强现实视图的存储方法和装置
CN102831401A (zh) * 2012-08-03 2012-12-19 樊晓东 对无特定标记目标物体跟踪、三维叠加及交互的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10103922A1 (de) 2001-01-30 2002-08-01 Physoptics Opto Electronic Gmb Interaktives Datensicht- und Bediensystem
US7302089B1 (en) 2004-04-29 2007-11-27 National Semiconductor Corporation Autonomous optical wake-up intelligent sensor circuit
DE102005061952B4 (de) 2005-12-23 2008-09-11 Metaio Gmbh Verfahren und System zur Bestimmung einer Ungenauigkeitsinformation in einem Augmented Reality System
US20120249797A1 (en) * 2010-02-28 2012-10-04 Osterhout Group, Inc. Head-worn adaptive display

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810099A (zh) * 2011-05-31 2012-12-05 中兴通讯股份有限公司 增强现实视图的存储方法和装置
CN102831401A (zh) * 2012-08-03 2012-12-19 樊晓东 对无特定标记目标物体跟踪、三维叠加及交互的方法及系统

Also Published As

Publication number Publication date
EP2770783A2 (en) 2014-08-27
EP2770783B1 (en) 2018-06-20
CN104007817A (zh) 2014-08-27
EP2770783A3 (en) 2016-04-13

Similar Documents

Publication Publication Date Title
CN104007817B (zh) 具有至少一个摄像机的可穿戴信息系统
CN104221031B (zh) 将影像特征与参考特征相匹配之方法及其所用集成电路
US10650546B2 (en) Method of providing a descriptor for at least one feature of an image and method of matching features
US9560273B2 (en) Wearable information system having at least one camera
US7680300B2 (en) Visual object recognition and tracking
CN103959308B (zh) 以参考特征匹配图像特征的方法
Arth et al. Wide area localization on mobile phones
CN108648235A (zh) 相机姿态追踪过程的重定位方法、装置及存储介质
CN111028358B (zh) 室内环境的增强现实显示方法、装置及终端设备
CN108734654A (zh) 绘图与定位方法、系统及计算机可读存储介质
CN112036331A (zh) 活体检测模型的训练方法、装置、设备及存储介质
Weng et al. Objects tracking from natural features in mobile augmented reality
CN111243668A (zh) 分子结合位点检测方法、装置、电子设备及存储介质
Shufelt Geometric constraints for object detection and delineation
JP5647072B2 (ja) 被写体認識装置、被写体認識方法及び被写体認識プログラム
Radanovic et al. Aligning the real and the virtual world: Mixed reality localisation using learning-based 3D–3D model registration
Barros et al. Real-time human pose estimation from body-scanned point clouds
Sharma et al. State of-the-Art Analysis of Multiple Object Detection Techniques using Deep Learning
CN113378705A (zh) 车道线检测方法、装置、设备及存储介质
Zhao et al. Cvml-pose: convolutional vae based multi-level network for object 3d pose estimation
CN113362357B (zh) 特征点确定方法、装置、设备及存储介质
Navares-Vázquez et al. Virtual seeds for indoor point cloud segmentation with hololens 2
Zhang et al. 3D human pose estimation based on multi view information fusion
CN113822791A (zh) 图像配准方法、配准网络训练方法、装置、设备及介质
CN116664812A (zh) 一种视觉定位方法、视觉定位系统及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180420

Address after: American California

Applicant after: Apple Computer, Inc.

Address before: Munich, Germany

Applicant before: METAIO GmbH

GR01 Patent grant
GR01 Patent grant