CN101950351A

CN101950351A - 使用图像识别算法识别目标图像的方法

Info

Publication number: CN101950351A
Application number: CN2009110002286A
Authority: CN
Inventors: Y·吴; H·豪斯科尔; I·科津采夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2008-12-02
Filing date: 2009-12-02
Publication date: 2011-01-19
Anticipated expiration: 2029-12-02
Also published as: US20100135527A1; JP2010152884A; CN101950351B; US8391615B2; TWI443588B; JP2012108961A; TW201030633A

Abstract

一种图像识别算法包括基于关键点比较和基于区域颜色比较。一种用于使用所述算法来识别目标图像的方法包括：在处理设备处接收输入，所述输入包括有关目标图像的数据；执行检索步骤，包括从图像数据库检索图像，并且直到图像被接受或被拒绝，指定所述图像为候选图像；执行图像识别步骤，包括使用处理设备对目标图像和候选图像执行图像识别算法以获得图像识别算法输出；以及执行比较步骤，包括：如果所述图像识别算法输出在预选的范围内，那么接受候选图像作为目标图像；如果图像识别算法输出不在预选的范围内，那么拒绝候选图像并且重复检索步骤、图像识别步骤和比较步骤。

Description

使用图像识别算法识别目标图像的方法

技术领域

本发明公开的实施例总体上涉及图像识别，并且更具体地涉及用于移动增强现实(mobile augmented reality)的基于约束的图像识别技术。

背景技术

移动互联网设备(MID)代表快速增长的全球市场。这些移动计算设备的特点是尺寸小、广泛可用的互联网连接和健壮的计算能力。这些特征允许移动增强现实应用，其通过基于参数(例如，在MID的集成摄像头视野中的人的位置和物体)提供额外的背景信息来增强人的感觉和体验。允许该使用模型的关键技术是基于背景信息(例如，位置和方向)找到并匹配图像和视频中的物体。

附图说明

结合附图，根据以下详细的描述，将更好地理解本公开的实施例，其中：

图1是根据本发明的实施例的基于约束的图像识别系统流程的示意图；

图2和3是根据本发明的实施例的图像识别算法的示意图；

图4是根据本发明的实施例的图1的基于约束的图像识别系统流程的示意图；

图5是说明了根据本发明的实施例的用于识别目标图像的方法的流程图；以及

图6是说明了根据本发明的实施例的用于选择数据以传输到便携式电子设备的方法的流程图。

为了说明的简洁和清楚，附图说明了结构的一般的方式，公知特征和技术的描述和细节被省略以避免不必要地模糊对本发明的所描述的实施例的讨论。此外，附图中的元件并非必然按照比例来绘制。例如，附图中一些元件的尺寸相对于其它的元件被放大以帮助改进对本发明的实施例的理解。在不同的附图中，相同的附图标记表示相同元件，但是类似的附图标记可以但并不必然表示类似的元件。

在说明书和权利要求中的术语“第一”、“第二”、“第三”、“第四”等(如果有的话)被用于区分相似的元件，并不必然用于描述特定的顺序或时间顺序。应当理解，在适当的情况下，所使用的术语是可互换的，以使得本文描述的本发明的实施例例如能够按照与本文说明或描述的顺序不同的顺序来操作。类似的，如果本文描述的方法包括一系列步骤，那么本文所示的这些步骤的顺序并不必然是可以执行这些步骤的唯一顺序，并且某些步骤可能被省略和/或某些本文没有描述的其它步骤可能被加入所述方法。此外，术语“包含”、“包括”、“具有”和它们的任何变型旨在覆盖非排它性的包括，以使得包括所列出的元素的过程、方法、制品或装置并不必然被限定为这些元素，而是可以包括没有明确列出的或这种过程、方法、制品或装置所固有的其它元素。

说明书以及权利要求中的术语“左”、“右”、“前”、“后”、“顶”、“底”、“上方”、“下方”等(如果有的话)被用于描述性的目的，并不必然用于描述固定的相对位置。应该理解，在适当的情况下，所使用的这些术语是可互换的，以使得本文描述的本发明的实施例例如能够按照与本文说明或描述的方位不同的方位来操作。本文使用的术语“耦合”被定义为用电或非电的方式直接或间接地连接。根据使用短语的上下文的不同，本文描述为彼此“相邻”的物体可以彼此物理地接触，彼此紧密的靠近或者彼此在大致相同的区域或地区中。在本文中，短语“在一个实施例中”的出现并不必然都指代同一实施例。

具体实施方式

在本发明的一个实施例中，图像识别算法包括基于关键点比较以及基于区域颜色比较。算法还可以包括可视符号比较。在本发明的一个实施例中，使用图像识别算法来识别目标图像的方法包括：在处理设备处接收输入，所述输入包括有关目标图像的数据；执行检索步骤，包括从图像数据库中检索图像直到图像被接受或者被拒绝，将图像指定为候选图像；执行图像识别步骤，包括使用处理设备对目标图像和候选图像执行图像识别算法，以便获得图像识别算法输出；执行比较步骤，包括：如果图像识别算法输出在预先选择的范围内，那么接受候选图像作为目标图像；如果图像识别算法输出不在预先选择的范围内，那么拒绝候选图像并重复检索步骤、图像识别步骤以及比较步骤。

因此，本发明的实施例允许用于移动增强现实的基于约束的图像识别。想要对地点或物体了解更多的用户可以利用MID或其它移动设备来拍摄地点或物体的图像，并且可以接收关于所拍摄的地点或物体的相关信息，其可以是覆盖在移动设备上的拍摄图像上的增强信息的形式。在一些实施例中，用户可以通过执行嵌入在MID或其它设备上的自动区域分割算法来选择感兴趣的区域进行查询。在这种算法中，用户可以通过触摸在被分割成预先选择的多个区域的触摸屏上自动生成的区域分块，而不是通过使用绘图工具来容易地选择感兴趣的区域。

实时响应以及良好的信息检索精度是移动设备应用的两个关键的部分。然而，对于大多数图像识别算法，随着图像数据库的尺寸的增长，匹配的速度和精度都在下降。此外，仅基于可视内容的图像识别被证明是非常有挑战性的，因为当前的计算机视觉和模式识别技术还不能完美地识别在不同的照明条件、视角、旋转、分辨率以及遮蔽(occlusion)的情况下拍摄的图像。

本发明的实施例使用传感器模态(sensor modality)，例如定位系统数据、3D加速计数据、以及陀螺仪和数字指南针信息来减少图像搜索复杂度。定位系统数据可以包括来自全球定位系统(GPS)、广域网(WAN)、无线网络等的数据。例如，如果查询图像的GPS位置在“纽约曼哈顿中城，第33和34街之间，第五大道350号”(帝国大厦的地址)附近，那么查询图像不需要与在与GPS位置明显不同处的图像进行比较。因此，例如，查询图像就不会与芝加哥的西尔斯大厦或者法兰克福的商业银行大厦的图像(这两者以及许多其它摩天大楼，至少看起来与帝国大厦有某些相似之处)混淆。

此外，本发明的实施例使用光学字符识别(OCR)和语音识别技术，利用在场景中出现的文本和标识以及来自用户输入的语音关键字来补助图像识别。基于文本的检索具有计算成本低、存储需求小、传输带宽低的优点。这些基于文本的输入帮助搜索系统实时地变换到减小的搜索空间中。文本信息还有助于区分具有相似外观的物体。如上所述，一些实施例还使用组合了基于区域颜色比较和基于关键点比较的高级图像识别算法。两种可视特征空间的匹配结果的组合具有两个特征的优点，并且提供健壮的图像识别系统来应对不同的照明条件、视角、旋转等。

现在参照附图，图1是根据本发明实施例的基于约束的图像识别系统流程100的示意图。如图1所示，系统流程100接受输入110，如图所示，所述输入110包括可视内容111、传感器模态112、音频内容113以及从图像数据库120检索的信息；执行匹配以及排序过程130以便得到检索的结果140。下文将更详细地讨论系统流程100。

图2是根据本发明实施例的图像识别算法200的示意图。如图2所示，图像识别算法200包括基于关键点比较210以及基于区域颜色比较220。

基于关键点比较不会随图像缩放和图像旋转而变化，并且部分地不会随观察点和照明中的变化而变化。因此，当使用基于关键点比较技术来处理图像时，即使相同物体的多个图像是在不同的照明条件、从不同的角度和距离等拍摄的，这些图像也不太可能被错误地识别为不匹配。作为示例，基于关键点比较210可以包括显著关键点提取过程211，其导致关键点212被识别。关键点特征提取213产生一组关键点特征向量214。这可以使用两两比较215来处理，下文将更详细地描述。可以通过使用对极(epipolar)几何约束216或本领域公知的其它投影几何技术来改进比较，以便去除关键点匹配离群点(outlier)并且执行代表所关注的特定物体的特征点的几何协同定位。

根据一个实施例，两两比较215涉及使用来自每个图像的关键点直接比较两个图像。例如，如果图像1具有关键点A和B，图像2具有关键点C和D，那么两两比较215包括：建立包括距离A-C、A-D、B-C、B-D的二分图(bi-partite graph)。距离被排序并且确定最短距离，之后识别不涉及来自最短距离的点的下一最短距离。使用上述示例的小样本尺寸，一旦A-C被识别为最短距离，那么B-D就是唯一剩下的不包括A或C的距离。然后，距离A-C和B-D被相加以获得它们的和。如果该和“较小”，即在某个预选的范围内，那么图像1和图像2可以被识别为相同物体的图像。该预选的范围取决于应用，并且根据需要，可以被调大或调小以便识别更多或更少的匹配图像。

两两比较215具有对称的优点。其它比较可能不是对称的，即，可能取决于哪个图像被识别为第一图像，包括那些将图像的每个关键点与来自数据库的多个图像(而不是每次与一个图像)的关键点进行比较，以尝试找到最接近的匹配的方式。

因为像素的区域在噪声和失真方面来说比单个像素更稳定并且比包含多个物体的整个图像更精确，所以基于区域颜色比较是健壮的比较策略。在各种实施例中，基于区域颜色比较220可以涉及使用颜色相关图、颜色红-绿-蓝直方图或者其它合适的颜色相关特征。作为示例，基于区域颜色比较220可以包括区域分割过程221，其导致区域222的识别。颜色特征提取223产生一组颜色特征向量224，其可以被使用该领域公知的地球移动距离(EMD，Earth mover′s distance)比较225来处理。

如图2进一步所说明的，图像识别算法200还可以包括可视符号比较230。作为示例，可视符号比较230可以比较文本、标志、字母字符以及出现在图像中的物体上的或与其有关的其它字符和符号。作为另一个示例，可视符号比较230可以使用技术231(例如，OCR和语音识别)以得到关键字232。这些可以利用根据本领域公知的技术的余弦比较233来进行比较。可视符号比较230、基于关键点比较210和基于区域颜色比较220可以被组合250在类似于匹配和排序过程130的过程中，以便得到检索结果140(参见图1)。

图像识别算法200可以对输入201操作，在所说明的实施例中，该输入201包括可视内容205和音频内容206。作为一个例子，基于关键点比较210、基于区域颜色比较220和可视符号比较230可以从可视内容205得到它们的输入。作为另一个示例，音频内容206可以包括语音命令、图像内容的可听见的描述等。图像识别算法200还可以包括音频内容206的分析。可以使用传统的语音识别技术来从音频内容206获得关键字。

在一个实施例中，图像识别算法200还包括传感器模态分析。这在图3中说明，它是根据本发明的实施例的图像识别算法200的示意图。为了简洁起见，图3中省略了图2中出现的图像识别算法200的某些元素。

如图3所示，图像识别算法200的输入201还包括传感器模态305。这些模态可以包括GPS数据310或其它合适的位置传感器数据、校准(alignment)信息311、时间320、视角和方向数据330等。因此，一个实施例将图像内容(例如，可视内容205和音频内容206)与传感器模态(305)结合，以提高图像识别精度和效率。例如，给定GPS定位、视角、方向等，在关键点提取之前，可以使用视角和方向数据330，将从不同视角和方向拍摄的相同物体的两个图像进行校准。通过使用上述方法，可以更精确地匹配在不同的旋转331、视角等处拍摄的相同物体。作为另一个示例，如果拍摄时间(320)表明一个图像是在白天拍摄的并且另一个图像在夜晚拍摄的，那么将不使用颜色比较，以减少匹配错误，在白天/晚上以及白天/晚上照明的不同引起较大的颜色改变的情况下可能会产生这种错误。此外，OCR准确度要求文本处于水平位置。如果需要的话，通过利用例如视角、方向等传感器信息330，可以将图像旋转到水平位置，以便增加OCR处理(231)的准确度。

如图3所示，传感器模态305可以作为图像识别算法200中的初始步骤而出现。传感器模态305可以用作图像识别过程中的、可以减少图像搜索空间的大小的额外细化的层。这在图4中进行了说明，图4是根据本发明的实施例的基于约束的图像识别系统流程100的示意图。图4显示了输入110，其包括传感器模态112(所述传感器模态112与图3中的传感器模态305等同)。传感器模态112用于(例如，如图3及上文所述)使用过滤方案420(例如，如图所示以及上文所述)来估计410图像搜索空间。这会产生图像数据库120中的必须被搜索的一组候选430，其中，组430可以显著地比图像数据库120中的图像数量少。

图5是说明根据本发明的实施例的用于识别目标图像的方法500的流程图。如上所述，目标图像可以是由移动计算设备拍摄的用户生成的图像。作为示例，用户可以可选地指定感兴趣的区域而不是整个图像作为查询。图像可视内容本身，以及文本、语音关键字和传感器模态(例如，GPS、加速计、陀螺仪以及数字指南针信息)被传输到图像匹配服务。取决于计算/带宽资源，该图像匹配服务可以位于移动计算设备上，或者可以作为无线连接到移动计算设备的后台服务来运行。

方法500的步骤510用于在处理设备处接收包括有关目标图像的数据的输入。作为示例，输入可以与首先在图1中显示的输入110相似。在一个实施例中，步骤510包括接收可视内容数据、传感器模态数据以及音频数据中的至少一个。在相同的或另一个实施例中，步骤510包括从便携式电子设备(例如，MID、蜂窝电话等)接收输入。在一个实施例中，步骤510包括：接收传感器模态数据，其包括来自GPS、加速计或其它合适的运动传感器、陀螺仪以及指南针中的至少一个的数据。在一个实施例中，加速计可以是3D加速计。

作为示例，处理设备可以处在服务器或其它后台服务处、在MID或其它便携式计算设备处或在类似的位置。处理设备可以是运行软件算法的计算平台的一部分，除了别的任务以外，其还执行图像/视频处理任务，例如物体检测和识别、用户接口以及图像/视频渲染等。作为示例，这种算法可以与图像识别算法200相似。视频显示器可以用于渲染处理的结果，可选地将它与实际图像/视频数据和由图像数据库提供的额外信息相结合。

计算平台还可以包括图像传感器，其连接到能够拍摄并处理静态图像和视频的像素处理器。像素处理器可以被编程以具有以下功能：从处理简单操作(例如，直方图计算、2D滤波和关于像素阵列的算术操作)的性能到处理更复杂的任务(例如，物体检测、3D滤波等)的性能。主机中央处理单元(CPU)协调整个平台的操作并且可以执行软件算法的一部分。除了像素处理器，通过在平台中包括多个加速器，可以获得改进的功率和性能；这些加速器可以包括视频编解码器、图像/视频稳定模块和其它图像处理模块。

互联结构可以将主机CPU和图像处理模块连接到主存储器、显示器和存储设备。此外，互联结构可以允许单独的图像处理模块彼此直接连接以执行某些任务。在这种情况下，未使用的平台部件可以被置于低功率状态，以改进平台的功率/性能特性。所有平台部件都可以访问平台时钟，以便同步传感、计算以及开动操作。平台可以包括支持基于中断、信箱区和其它方法的直接的部件到部件的通信机制的硬件。

方法500的步骤520使用传感器模态数据来过滤多个潜在的匹配图像。作为示例，如上所述，(可选的)该过滤可以减小图像搜索空间并可以提高图像识别算法输出的准确度以及获得该输出的速度。

方法500的步骤530执行检索步骤，其包括：从包含多个潜在的匹配图像的图像数据库中检索图像，并且直到图像被接受或拒绝；指定图像作为候选图像。作为示例，该图像数据库可以类似于图像数据库120(参见图1)或者类似于图像数据库120的子集，例如组430(参见图4)。

方法500的步骤540执行图像识别步骤，其包括使用处理设备来对目标图像和候选图像执行图像识别算法，以便获得图像识别算法输出。作为示例，图像识别算法可以类似于图2中首先示出的图像识别算法200。因此，在一个实施例中，步骤540包括使用处理设备来执行基于关键点比较、基于区域颜色比较以及可视符号比较。在特定实施例中，执行基于关键点比较包括：执行至少两个关键点特征向量的两两比较；执行基于区域颜色比较包括：执行至少两个颜色特征向量的EMD比较；并且执行可视符号比较包括执行余弦比较。

方法500的步骤550执行比较步骤，在该步骤中，如果图像识别算法输出在预选的范围内(因此指示期望的匹配的质量)，那么接受候选图像作为目标图像；如果图像识别算法输出不在预选的范围内(指示没有达到期望的匹配的质量)，那么拒绝候选图像，并且重复检索步骤、图像识别步骤以及比较步骤。

图6是说明了根据本发明的实施例的、用于选择数据以传输到便携式电子设备的方法600的流程图。

方法600的步骤610在处理设备处接收来自便携式电子设备的、有关目标图像的信息。在一个实施例中，步骤610包括接收可视内容数据、传感器模态数据以及音频内容数据中的至少一种。在一个实施例中，步骤610包括接收传感器模态数据，其包括来自GPS、3D(或其它)加速计或其它运动传感器、陀螺仪以及指南针中的至少一个的数据。在一个实施例中，方法600还包括使用传感器模态数据来过滤多个潜在匹配的图像。

方法600的步骤620执行检索步骤，其包括：从包含多个潜在匹配图像的图像数据库中检索有关图像的信息，并且直到图像被接受或拒绝；指定图像作为候选图像。作为示例，所检索的信息可以包括颜色特征或其它可视内容数据等。

方法600的步骤630执行图像识别步骤，其包括使用处理设备来对有关目标图像和候选图像的信息执行图像识别算法，以获得图像识别算法输出。在一个实施例中，步骤630包括使用处理设备来执行基于关键点比较、基于区域的颜色比较以及可视符号比较。在各种实施例中，执行基于关键点比较包括执行至少两个关键点特征向量的两两比较；执行基于区域颜色比较包括执行至少两个颜色特征向量的EMD比较；并且执行可视符号比较包括执行余弦比较。

方法600的步骤640执行比较步骤，在该步骤中，如果图像识别算法输出在预选的范围内(因此指示期望的匹配的质量)，那么接受候选图像作为目标图像；如果图像识别算法输出不在预选的范围内(指示没有达到期望的匹配的质量)，那么拒绝候选图像，并且重复检索步骤、图像识别步骤以及比较步骤。

方法600的步骤650在接受候选图像作为目标图像之后，将与目标图像关联的数据集发送到个人电子设备。

虽然参照具体的实施例描述了本发明，但是本领域的技术人员将理解，可以在不脱离本发明的精神或范围的情况下，做出各种改变。因此，本发明的实施例的公开旨在说明本发明的范围而不是旨在对其限定。本发明的范围应当仅限制到所附权利要求所要求的程度。例如，对于本领域的技术人员来说，可以在各种实施例中实现图像识别算法和本文讨论的有关方法，这是显而易见的，并且上文中对这些实施例中的某些的讨论并不必然代表对所有可能的实施例的完整描述。

此外，关于具体的实施例描述了益处、其它优点和问题的解决方案。然而，益处、优点和问题的解决方案以及可以使得任何益处、优点和解决方案出现或变得更显著的任何元素不应被解释为任何权利要求或所有权利要求的关键的、必需的或必要的特征。

此外，如果实施例和/或限定：(1)没有在权利要求中明确地声明；并且(2)根据等价物的原则，是或者潜在的是权利要求中的明确的元素和/或限定的等价物，那么根据专用原则，本文公开的实施例和限定并不专用于公众。

Claims

1.一种用于识别目标图像的方法，所述方法包括：

执行图像识别算法，其包括：

基于关键点比较；

基于区域颜色比较；以及

传感器模态分析。

2.根据权利要求1所述的方法，其中：

所述图像识别算法还包括可视符号比较。

3.根据权利要求2所述的方法，其中：

所述可视符号比较包括余弦比较。

4.根据权利要求1所述的方法，其中：

所述基于关键点比较包括至少两个关键点特征向量的两两比较。

5.根据权利要求1所述的方法，其中：

所述基于区域颜色比较包括至少两个颜色特征向量的地球移动距离(EMD)比较。

6.根据权利要求1所述的方法，其中：

所述图像识别算法还包括音频内容分析。

7.一种用于识别目标图像的方法，所述方法包括：

在处理设备处接收输入，所述输入包括有关所述目标图像的数据；

执行检索步骤，所述检索步骤包括：从图像数据库检索图像，所述图像数据库包含多个潜在匹配图像，并且直到所述图像被接受或被拒绝；指定所述图像作为候选图像；

执行图像识别步骤，所述图像识别步骤包括使用所述处理设备来对所述目标图像和所述候选图像执行图像识别算法，以便获得图像识别算法输出；以及

执行比较步骤，所述比较步骤包括：

如果所述图像识别算法输出在预选的范围内，那么接受所述候选图像作为所述目标图像；以及

如果所述图像识别算法输出不在所述预选的范围内，那么拒绝所述候选图像并且重复所述检索步骤、所述图像识别步骤和所述比较步骤。

8.根据权利要求7所述的方法，其中：

使用所述处理设备来执行所述图像识别算法包括：使用所述处理设备来执行基于关键点比较、基于区域颜色比较和可视符号比较中的至少一个。

9.根据权利要求8所述的方法，其中：

执行所述基于关键点比较包括：执行至少两个关键点特征向量的两两比较。

10.根据权利要求8所述的方法，其中：

执行所述基于区域颜色比较包括：执行至少两个颜色特征向量的地球移动距离(EMD)比较。

11.根据权利要求8所述的方法，其中：

执行所述可视符号比较包括执行余弦比较。

12.根据权利要求7所述的方法，其中：

在所述处理设备处接收所述输入包括：接收传感器模态数据；以及

所述传感器模态数据包括来自定位系统、运动传感器、陀螺仪和指南针中的至少一个的数据。

13.根据权利要求12所述的方法，还包括：

使用所述传感器模态数据来过滤所述多个潜在匹配图像。

14.根据权利要求7所述的方法，其中：

在所述处理设备处接收所述输入包括：接收可视内容数据、传感器模态数据和音频内容数据中的至少一个。

15.根据权利要求7所述的方法，其中：

在所述处理设备处接收所述输入包括：从便携式电子设备接收所述输入。

16.一种用于选择数据以传输到便携式电子设备的方法，所述方法包括：

在处理设备处接收有关目标图像的信息，所述信息是从所述便携式电子设备发送的；

执行检索步骤，所述检索步骤包括：从图像数据库检索有关图像的信息，所述图像数据库包含多个潜在匹配图像，并且直到所述图像被接受或被拒绝；指定所述图像作为候选图像；

执行图像识别步骤，所述图像识别步骤包括使用所述处理设备来对与所述目标图像和所述候选图像相关的信息执行图像识别算法，以便获得图像识别算法输出；

执行比较步骤，所述比较步骤包括：

如果所述图像识别算法输出不在所述预选的范围内，那么拒绝所述候选图像并且重复所述检索步骤、所述图像识别步骤和所述比较步骤；以及

在接受所述候选图像作为所述目标图像之后，将与所述目标图像相关联的数据集传输到所述便携式电子设备。

17.根据权利要求16所述的方法，其中：

使用所述处理设备来执行所述图像识别算法包括：使用所述处理设备来执行基于关键点比较、基于区域颜色比较和可视符号比较中的至少一个；

执行所述基于关键点比较包括：执行至少两个关键点特征向量的两两比较；

执行基于区域颜色比较包括：执行至少两个颜色特征向量的地球移动距离(EMD)比较；

执行所述可视符号比较包括执行余弦比较。

18.根据权利要求16所述的方法，其中：

在所述处理设备处接收有关所述目标图像的信息包括：接收传感器模态数据；

所述传感器模态数据包括来自定位系统、加速计、陀螺仪和指南针中的至少一个的数据；并且

所述方法还包括：使用所述传感器模态数据来过滤所述多个潜在匹配图像。

19.根据权利要求16所述的方法，其中：

在所述处理设备处接收有关所述目标图像的信息包括：接收可视内容数据、传感器模态数据以及音频内容数据中的至少一个。