CN108334644B

CN108334644B - 图像识别方法和装置

Info

Publication number: CN108334644B
Application number: CN201810274877.8A
Authority: CN
Inventors: 刘赵梁; 张永杰; 章宏武
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2019-03-15
Anticipated expiration: 2038-03-30
Also published as: US20190303700A1; US10762373B2; CN108334644A

Abstract

本发明实施例提出一种图像识别方法和装置。该方法包括：获取查询图像对应的相似图像，相似图像为根据查询图像的第一视觉特征检索得到的图像，所述第一视觉特征包括全局视觉特征和/或局部视觉特征；将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，所述第二视觉特征包括局部视觉特征；从所述多组视觉特征对中去除误匹配的视觉特征对；根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功。本发明实施例在图像识别过程中，能够对第一次图像检索得到的相似图像进行二次匹配，在二次匹配中可以使用比第一次检索更加精细的误匹配去除方法去除误匹配的视觉特征对，提高了图像识别的准确率，减少误识别。

Description

图像识别方法和装置

技术领域

本发明涉及图像处理技术，尤其涉及一种图像识别方法和装置。

背景技术

图像检索技术能够检索查询图像中是否包含图像库中的一副或者多幅图像。图像检索技术分为离线训练及在线查询两个阶段。在离线训练阶段，提取图像库中所有图像的视觉特征，形成图像特征索引库。在在线查询阶段，提取查询图像的视觉特征，并与图像特征索引库进行对比，确定图像库中与查询图像相似度最高的一副或几幅参考图像；若确定出的参考图像与查询图像的相似度足够高，则可以认为查询图像包含这一幅或几幅参考图像。

根据执行图像检索技术的主体不同，可分为云端图像检索与本地图像检索。其中云端图像检索包括：将查询图像上传至云端，在云端对查询图像与图像库的图像特征进行特征对比，并将对比结果传回移动终端。本地图像检索包括：云端先将参考图像数据集的特征库下发至移动终端，在移动终端执行特征对比并获得对比结果。

在光照条件变化、移动终端快速运动导致图像模糊、有效目标在查询图像中的屏占比较小等情况下，现有图像检索技术的识别准确率较低，常常发生误识别现象，严重影响用户体验。

发明内容

本发明实施例提供一种图像识别方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种图像识别方法，包括：

获取查询图像对应的相似图像，其中，所述相似图像为根据查询图像的第一视觉特征检索得到的图像，所述第一视觉特征包括全局视觉特征和/或局部视觉特征；

将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，所述第二视觉特征包括局部视觉特征；

从所述多组视觉特征对中去除误匹配的视觉特征对；

根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，获取查询图像对应的各参考图像相似图像，包括：

根据参考图像数据库中的各参考图像对应的第一视觉特征，建立图像特征索引库；

根据查询图像的第一视觉特征，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像。

结合第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，根据查询图像的第一视觉特征，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像，包括：

从查询图像中提取第一视觉特征；

根据第一视觉特征中的局部视觉特征确定该查询图像包括的视觉单词；

按照图像特征索引库的索引结构，在图像特征索引库中查找包括查询图像的视觉单词的图像，确定候选图像集合；

根据查询图像的第一视觉特征与候选图像集合中各候选图像的第一视觉特征，确定查询图像与各候选图像之间的视觉特征距离，所述视觉特征距离用于表示相似度；

根据查询图像与各候选图像之间的视觉特征距离，对各候选图像进行排序；

按照排序结果从各候选图像中确定出各相似图像。

结合第一方面、第一方面的第一种实现方式或第一方面的第二种实现方式，本发明实施例在第一方面的第三种实现方式中，将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，包括：

计算查询图像的每个局部视觉特征与相似图像的每个局部视觉特征的距离，按照各距离形成多组局部视觉特征对。

结合第一方面的第三种实现方式，本发明实施例在第一方面的第四种实现方式中，从多组视觉特征对中去除误匹配的视觉特征对，包括：

采用霍夫投票的方式对多组局部视觉特征对进行校验，去除误匹配的局部视觉特征对。

结合第一方面的第三种实现方式，本发明实施例在第一方面的第五种实现方式中，根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功包括：

根据剩余的局部视觉特征对的数量，确定查询图像与相似图像是否匹配成功；或

根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功。

结合第一方面的第五种实现方式，本发明实施例在第一方面的第六种实现方式中，根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，包括：

采用随机抽样一致的方式计算剩余的局部视觉特征对之间的仿射变换。

结合第一方面的第五种实现方式，本发明实施例在第一方面的第七种实现方式中，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功，包括：

根据仿射变换得到内群点数量，确定查询图像与相似图像是否匹配成功；或

根据相似图像与查询图像之间的仿射变换的误差，确定查询图像与相似图像是否匹配成功。

第二方面，本发明实施例提供了一种增强现实的控制方法，包括：

采用本发明实施例任意一种的图像识别方法，确定查询图像是否匹配成功；

如果查询图像与相似图像匹配成功，则根据与查询图像的第二视觉特征匹配的相似图像，获取对应的增强现实案例的动画和交互过程。

第三方面，本发明实施例提供了一种图像识别装置，包括：

获取模块，用于获取查询图像对应的相似图像，其中，所述相似图像为根据查询图像的第一视觉特征检索得到的图像，所述第一视觉特征包括图像的全局视觉特征和/或局部视觉特征；

匹配模块，用于将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，所述第二视觉特征包括局部视觉特征；

去除模块，用于从所述多组视觉特征对中去除误匹配的视觉特征对；

确定模块，用于根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功。

结合第三方面，本发明实施例在第三方面的第一种实现方式中，所述获取模块包括：

索引库建立子模块，用于根据参考图像数据库中的各参考图像对应的第一视觉特征，建立图像特征索引库；

检索子模块，用于根据查询图像的第一视觉特征，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像。

结合第三方面的第一种实现方式，本发明实施例在第三方面的第二种实现方式中，所述检索子模块包括：

提取子模块，用于从查询图像中提取第一视觉特征；根据第一视觉特征中的局部视觉特征确定该查询图像包括的视觉单词；

第一查找子模块，用于按照图像特征索引库的索引结构，在图像特征索引库中查找包括查询图像的视觉单词的图像，确定候选图像集合；

第一确定子模块，用于根据查询图像的第一视觉特征与候选图像集合中各候选图像的第一视觉特征，确定查询图像与各候选图像之间的视觉特征距离，所述视觉特征距离用于表示相似度；

排序子模块，用于根据查询图像与各候选图像之间的视觉特征距离，对各候选图像进行排序；

第二确定子模块，用于按照排序结果从各候选图像中确定出各相似图像。

结合第三方面、第三方面的第一种实现方式或第三方面的第二种实现方式，本发明实施例在第三方面的第三种实现方式中，所述匹配模块还用于计算查询图像的每个局部视觉特征与相似图像的每个局部视觉特征的距离，按照各距离形成多组局部视觉特征对。

结合第三方面的第三种实现方式，本发明实施例在第三方面的第四种实现方式中，所述去除模块还用于采用霍夫投票的方式对多组局部视觉特征对进行校验，去除误匹配的局部视觉特征对。

结合第三方面的第三种实现方式，本发明实施例在第三方面的第五种实现方式中，所述确定模块还用于根据剩余的局部视觉特征对的数量，确定查询图像与相似图像是否匹配成功；或根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功。

结合第三方面的第五种实现方式，本发明实施例在第三方面的第六种实现方式中，所述确定模块还用于采用随机抽样一致的方式计算剩余的局部视觉特征对之间的仿射变换。

结合第三方面的第五种实现方式，本发明实施例在第三方面的第七种实现方式中，所述确定模块还用于根据仿射变换得到内群点数量，确定查询图像与相似图像是否匹配成功；或根据相似图像与查询图像之间的仿射变换的误差，确定查询图像与相似图像是否匹配成功。

第四方面，本发明实施例提供了一种增强现实的控制装置，包括：本发明实施例任意一种结构的图像识别装置；

所述增强现实的控制装置还包括：

增强现实模块，用于如果所述图像识别装置确定查询图像与相似图像匹配成功，则根据与查询图像的第二视觉特征匹配的相似图像，获取对应的增强现实案例的动画和交互过程。

第五方面，本发明实施例提供了一种图像识别装置，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明实施例任意一种的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本发明实施例任意一种的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：在图像识别过程中，能够对第一次图像检索得到的相似图像进行二次匹配，在二次匹配中可以使用比第一次检索更加精细的误匹配去除方法去除误匹配的视觉特征对，提高了图像识别的准确率，减少误识别。

上述技术方案中的另一个技术方案具有如下优点或有益效果：如果应用于增强现实技术，可以为实时增强现实技术的跟踪阶段提供初始姿态，有利于提高增强现实技术的整体准确率，带来更好的用户体验。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明一实施例的图像识别方法的流程图。

图2示出根据本发明另一实施例的图像识别方法的流程图。

图3示出根据本发明一实施例的增强现实的控制方法的流程图。

图4示出根据本发明另一实施例的图像识别方法的流程图。

图5示出根据本发明一实施例的图像识别装置的结构框图。

图6示出根据本发明一实施例的图像识别装置的另一结构框图。

图7示出根据本发明一实施例的增强现实的控制装置的结构框图。

图8示出根据本发明另一实施例的图像识别装置的结构框图。

图9示出根据本发明另一实施例的图像识别装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明一实施例的图像识别方法的流程图。如图1所示，该图像识别方法，包括：

101、获取查询图像对应的相似图像，其中，所述相似图像为根据查询图像的第一视觉特征检索得到的图像，所述第一视觉特征包括图像的全局视觉特征或局部视觉特征的组合；

102、将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，所述第二视觉特征包括局部视觉特征；

103、从所述多组视觉特征对中去除误匹配的视觉特征对；

104、根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功。

在本发明实施例中，可以使用图像搜索技术，先从参考图像数据库的各参考图像中查找与查询图像的第一视觉特征匹配的一幅或多幅相似图像。然后，在对于每个相似图像与查询图像进行第二次匹配。第二次匹配过程中，对于每个相似图像，可以计算查询图像的第二视觉特征与相似图像的第二视觉特征的距离，利用距离较近的相似特征形成多组视觉特征对。再从这多组视觉特征对中去除误匹配的视觉特征对。然后根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功。最后，可以确定出哪些相似图像与查询图像匹配成功。

其中，第一视觉特征可以是对图像的全图视觉内容进行描述的全局视觉特征，也可以是能够对图像局部视觉内容进行描述的局部视觉特征。第一视觉特征包括的全局视觉特征包括但不限于BoW(Bag of Words，词袋模型)特征、VLAD(Vector of LocallyAggregated Descriptor，局部特征聚合描述符)特征、FV(Fisher Vector，费舍尔向量)特征中的任意一种；所述第一视觉特征包括的局部视觉特征为SIFT(Scale-invariantFeature Transform，尺度不变特征)、SURF(Speeded Up Robust Feature，加速稳健特征)中的至少一种或任意组合。

第二视觉特征可以包括局部视觉特征。第二视觉特征涉及的局部视觉特征可以选择更加轻量级的二值化视觉特征，例如ORB(Oriented FAST and Rotated BRIEF)特征、FREAK(Fast Retina Keypoint，快速视网膜关键点)特征中的任意一种。

通过一定的度量方式可以计算两个视觉特征之间的距离，两个视觉特征之间的距离越近，可以表示两幅图像的视觉相似度越高。

本实施例的图像识别过程既可以在云端执行，也可以在终端执行。

在一种示例中，根据查询图像的第一视觉特征检索得到各相似图像的步骤，可以云端的服务器执行，也可以在终端执行。在云端执行的速度更快，处理效率更高。

在另一种示例中，将查询图像的第二视觉特征与各相似图像的第二视觉特征进行二次匹配的步骤，可以在云端的服务器执行，也可以在终端执行。与参考图像数据库中的参考图像的数量相比，相似图像的数量少，对设备处理能力要求不高，因此在终端也可以快速处理。

在另一种示例中，如果在云端根据查询图像的第一视觉特征检索得到各相似图像，云端可以将检索得到的各相似图像发送至终端，在终端将查询图像的第二视觉特征分别与各相似图像的第二视觉特征进行二次匹配。这样可以将对处理能力要求高的部分放在云端，将设备处理能力要求不高的部分放在终端，可以更合理的利用计算资源。

本发明实施例在图像识别过程中，能够对第一次图像检索得到的相似图像进行二次匹配，在二次匹配中可以使用比第一次检索更加精细的误匹配去除方法去除误匹配的视觉特征对，提高了图像识别的准确率，减少误识别。在光照条件变化、移动终端快速运动导致图像模糊、有效目标在查询图像中的屏占比较小等情况下，也能够准确的识别是否有与查询图像匹配的图像。

图2示出根据本发明另一实施例的图像识别方法的流程图。如图2所示，与上述实施例的不同之处在于，该方法的步骤101可以包括：

201、根据参考图像数据库中的各参考图像对应的第一视觉特征，建立图像特征索引库；

202、根据查询图像的第一视觉特征，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像。

在一种可能的实现方式中，步骤202包括：从查询图像中提取第一视觉特征；根据第一视觉特征中的局部视觉特征确定该查询图像包括的视觉单词，其中，对图像中大量连续局部视觉特征进行聚类形成固定数量的离散的聚类中心，每个聚类中心可称为一个视觉单词；按照图像特征索引库的索引结构，在图像特征索引库中查找包括查询图像的视觉单词的图像，确定候选图像集合；根据查询图像的第一视觉特征与候选图像集合中各候选图像的第一视觉特征，确定查询图像与各候选图像之间的视觉特征距离，所述视觉特征距离用于表示相似度；根据查询图像与各候选图像之间的视觉特征距离，对各候选图像进行排序；按照排序结果从各候选图像中确定出各相似图像。

图像特征索引库可以包括按照特定的方式对多张图像的第一视觉特征组织形成的第一视觉特征及其结构信息的集合，用以加速图像检索过程。举例而言，图像特征索引库的索引结构可以为倒排索引的方式。采用倒排索引的方式为参考图像数据库中的各参考图像的第一视觉特征建立索引，可以使得包含相同视觉单词的图像被组织到同一项索引中，一幅图像可以出现在多项索引中。倒排索引的方式仅是一种示例，还可以采用其他的方式例如分层倒排索引等方式建立图像特征索引库，本实施例对此不作限定。

从查询图像中提取第一视觉特征；根据第一视觉特征中的局部视觉特征确定该查询图像包括的视觉单词后，可以按照图像特征索引库的倒排索引结构，在图像特征索引库中查找包括查询图像的视觉单词的索引，每个索引与图像具有对应关系。与包括查询图像的视觉单词的索引对应的图像属于候选图像集合。然后，根据查询图像的第一视觉特征与候选图像集合中各候选图像的第一视觉特征，确定查询图像与各候选图像之间的视觉特征距离，从而确定查询图像与各候选图像之间的相似度。最后，根据查询图像与各候选图像之间的视觉特征距离，按照一定的顺序例如距离从小到大的顺序对各候选图像进行排序。从各候选图像中，选择例如排名最高或排名前几的一幅或几幅候选图像，作为与查询图像的相似度最高的相似图像。

举例而言，查询图像中包括视觉单词A和B，在图像特征索引库中查找到视觉单词A对应的索引有2个条目，分别为图像P1和P2，视觉单词B对应的索引有一个条目，为图像P3。若每张图像的第一视觉特征仅包含一个全局视觉特征，那么查询图像与P1、P2、P3之间的第一视觉特征距离即为其对应的全局视觉特征之间的距离。若每张图像的第一视觉特征包含多个局部视觉特征，那么查询图像与P1、P2、P3之间的第一视觉特征距离即为其对应的局部视觉特征匹配对数。若第一视觉特征既包含全局视觉特征，又包含局部视觉特征，则可使用全局视觉特征距离，或局部视觉特征距离，或两者的加权组合作为第一视觉特征距离。如果查询图像与P1、P2、P3的第一视觉特征距离小于一定阈值，则认为查询图像与P1、P2、P3为相似图像。

在一种可能的实现方式中，查询图像的第二视觉特征包括多个局部视觉特征。步骤102可以包括：

203、计算查询图像的每个局部视觉特征与相似图像的每个局部视觉特征的距离，按照各距离形成多组局部视觉特征对。

在一种方式中，可以计算查询图像的一个局部视觉特征与相似图像的每个局部视觉特征的距离，选择距离最近的相似图像的局部视觉特征，与该查询图像的该局部视觉特征形成局部视觉特征对。

在另一种方式中，可以计算查询图像的一个局部视觉特征与相似图像的每个局部视觉特征的距离。并计算最近距离与次近距离之间的比值，如果比值小于设定阈值，则选择距离最近的相似图像的局部视觉特征，与查询图像的该局部视觉特征形成局部视觉特征对。如果比值大于或等于设定阈值，则在该相似图像中，没有能与查询图像的该局部视觉特征形成局部视觉特征对的特征。

举例而言，查询图像的局部视觉特征包括F1和F2，相似图像S1的局部视觉特征包括F3和F4，相似图像S2的局部视觉特征包括F5和F6。计算查询图像与相似图像的特征的距离。如果特征F1与相似图像S1的特征F3的距离最近，则特征F1与特征F3形成一组局部视觉特征对；如果查询图像的特征F1与相似图像S2的特征F5的距离最近，则特征F1与特征F5形成一组局部视觉特征对；如果查询图像的特征F2与相似图像S2的特征F6距离最近，则特征F2与特征F6形成一组局部视觉特征对，依此类推。

再如，对于相似图像S1，如果特征F1与特征F3的距离L1为最近距离，特征F1与特征F4的距离L2为次近距离，也可以进一步计算L1与L2的比值。如果该比值小于某个阈值，使得L1比L2小的多，再选择特征F3与特征F1形成局部视觉特征对。如果L1与L2的比值相近，则可能出现从相似图像S1中找不到特征，来与特征F1形成局部视觉特征对的情况。

例如，可以采用欧式距离、余弦距离、汉明距离等度量方法来计算视觉特征之间的距离。对于采用不同算法得到的视觉特征，可以选择其所适用的距离计算方法。例如对于ORB/FREAK特征使用汉明距离，对于SIFT特征使用欧式距离。

在一种可能的实现方式中，步骤103可以包括：

204、采用霍夫投票(Hough Voting)的方式对多组局部视觉特征对进行校验，去除误匹配的局部视觉特征对。

在一种示例中，霍夫投票(Hough Voting)的方式可以通过平面位移、旋转、缩放共4个自由度构造霍夫投票的参数空间。

在一种可能的实现方式中，步骤104可以包括205或206：

205、根据剩余的局部视觉特征对的数量，确定查询图像与相似图像是否匹配成功。

例如，如果剩余的局部视觉特征对的数量小于一定阈值，则表示匹配失败，如果剩余的局部视觉特征对的数量大于或等于该阈值，则表示匹配成功。

206、根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功。

在一种可能的实现方式中，根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，包括：

采用随机抽样一致(RANSAC,RANdom Sample Consensus)的方式计算剩余的局部视觉特征对之间的仿射变换。

在一种可能的实现方式中，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功，包括：

在本实施例中，根据仿射变换的结果，可以判断多幅相似图像是否与查询图像匹配成功。例如，计算出所有的内群点数量后，如果内群点数量少于一定阈值，表示查询图像与该相似图像匹配失败，反之，表示匹配成功。

再如，计算查询图像与相似图像之间的仿射变换的误差的。如果误差大于一定阈值，表示查询图像与该相似图像匹配失败，反之，表示匹配成功。

图3示出根据本发明一实施例的增强现实的控制方法的流程图。如图3所示，该方法包括：

301、采用上述实施例中任一种图像识别方法，确定查询图像是否匹配成功；

302、如果查询图像与相似图像匹配成功，则根据与查询图像的第二视觉特征匹配的相似图像，获取对应的增强现实案例的动画和交互过程。

本发明实施例在图像识别过程中，能够对第一次图像检索得到的相似图像进行二次匹配，在二次匹配中可以使用比第一次检索更加精细的误匹配去除方法除误匹配的视觉特征对，提高了图像识别的准确率，减少误识别。如果应用于增强现实技术，可以为实时增强现实技术的跟踪阶段提供初始姿态，有利于提高增强现实技术的整体准确率，带来更好的用户体验。

例如，图像识别可以应用于增强现实中的触发阶段。服务器可以将第一次的图像检索结果对应的跟踪模型及渲染模型下发到移动终端，并在移动终端中进入实时跟踪阶段。如果服务器可以将经过二次的图像匹配的结果对应的跟踪模型及渲染模型下发到移动终端，可以减少将错误的跟踪及渲染模型下发到移动终端的情况，保证移动终端正确地进行跟踪及渲染。

图4示出根据本发明另一实施例的图像识别方法的流程图。本实施例是上述实施例的图像识别方法的一个具体的应用示例，在本实施例中，参考图像数据库也可以称为参考图像数据集，第一视觉特征可以称为检索视觉特征，第二视觉特征可以称为匹配视觉特征，图像特征索引库也可以称为图像检索索引库、检索特征索引库、查询视觉特征库等。

参照图4，所述图像识别方法包括：

401：为参考图像数据集中的每张图像提取检索视觉特征，并建立图像特征索引库。

例如，“检索视觉特征”包括对整幅图像视觉内容进行描述的一组数字集合，并可以通过一定的度量方式计算两个检索视觉特征之间的距离。两个检索视觉特征之间的距离越近，则说明两幅图像的视觉相似度越高。

“图像特征索引库”包括按照特定的方式对多张图像的检索视觉特征组织形成的检索视觉特征及其结构信息集合，用以加速图像检索过程。

可选的，检索视觉特征为任意可以对全图视觉内容进行描述的全局视觉特征，其通常由描述图像中描述局部视觉内容的多个局部视觉特征聚合得到，阐述了这些局部视觉特征在视觉词典中的统计分布特性，例如词袋模型特征、VLAD特征、FV特征等。

可选的，用于聚合全局视觉特征的局部视觉特征可以为任意能够对图像局部视觉内容进行描述的局部视觉特征，例如SIFT、SURF等。

可选的，视觉词典的形成过程包括：对大量连续局部视觉特征进行聚类，形成固定数量的离散的聚类中心，每个聚类中心被称为一个视觉单词，所有视觉单词的集合被称为视觉词典。

可选的，根据全局视觉特征为浮点型数值集合或二值型数值集合，可以使用欧式距离、余弦距离、汉明距离等度量方法来计算全局视觉特征之间的距离。

可选的，可以使用倒排索引的方式为参考图像数据集中的检索视觉特征建立索引。索引库中，包含相同视觉单词的图像被组织到同一项索引中，一幅图像可以出现在多项索引中。为了提高大规模参考图像数据集中的全局视觉特征分辨力，视觉词典中需要包含大量视觉单词，但会降低索引库的检索效率。为了应对这一问题，可以选择使用分层倒排索引的方式建立视觉特征索引，以提高大规模视觉词典下的检索效率。

402:为参考图像数据集中的每张图像提取多个匹配视觉特征。

例如，“匹配视觉特征”可以由多个局部视觉特征构成。局部视觉特征包括能够对图像内局部区域视觉内容进行描述的数字集合，并可以通过一定的度量方式计算两个局部视觉特征之间的距离。两个局部视觉特征之间的距离越近，则说明两个局部区域的视觉内容越相似。该步骤也可以不在云端执行，而在终端执行步骤405。

与检索视觉特征中涉及的局部视觉特征相比，匹配视觉特征涉及的局部视觉特征可以选择更加轻量级的二值化视觉特征，例如ORB(Oriented FAST and Rotated BRIEF)特征、FREAK(Fast Retina Keypoint)特征等。如果匹配视觉特征与检索视觉特征相比满足数据量少、计算时间少、计算复杂程度小中的至少一种情况，可以认为匹配视觉特征是比检索视觉特征更加轻量级的特征。

可选的，可使用汉明距离等度量方式计算二值化局部视觉特征之间的距离。

403:在云端为查询图像提取检索视觉特征，在图像特征索引库中进行查找，将与查询图像检索相似度最高的一幅或者几幅参考图像作为相似图像。

可选的，在图像特征索引库中进行查找的过程可以为，获取查询图像中包含的所有视觉单词集合。根据倒排索引结构，查找参考图像数据库中包含这些视觉单词的所有图像，形成候选图像集合。计算查询图像与这些候选图像之间的检索视觉特征距离。

可选的，检索视觉特征之间的距离可通过图像中全局视觉特征之间距离，或全局视觉特征之间距离与图像中用于聚合的局部视觉特征之间的距离组合构成。

可选的，按照检索视觉特征距离从小到大的顺序对这些候选图像进行排序。选择排名最高的一幅或者几幅候选图像，可以作为与查询图像检索相似度最高的一副或者几幅相似图像。

404：对于403中获得的一幅或者几幅相似图像，若这些相似图像与查询图像之间的检索视觉特征距离小于一定阈值，则进入405；否则进入4071，结束识别过程，认为参考图像数据集中的所有图像均未出现在查询图像中。

405:在移动终端中，为查询图像提取匹配视觉特征。与检索相似度最高的一幅或者几幅相似图像进行匹配，其中“匹配视觉特征”与402一致。

可选的，查询图像与检索相似度最高的一幅或者几幅相似图像的匹配过程可以为：计算查询图像的每个局部视觉特征与相似图像的每个局部视觉特征的距离，按照各距离形成多组局部视觉特征对；对这些匹配局部视觉特征对进行校验，去除误匹配视觉特征对；根据剩余的视觉特征对计算相似图像与查询图像之间的仿射变换。

可选的，可以使用霍夫投票去除误匹配视觉特征对，其中可以通过平面位移、旋转、缩放共4个自由度构造霍夫投票的参数空间。

可选的，可以使用随机抽样一致方法计算剩余特征匹配对之间的仿射变换。

可选的，405可以级联地执行多轮，以提高匹配准确性。

406:判断405中查询图像与一幅或者多幅相似图像是否能够成功匹配。若不能成功匹配，则进入4071，参考图像数据集中的所有图像均未出现在查询图像中。若能够成功匹配，则说明匹配的相似图像出现在了查询图像中。

其中，判断两幅图像不能成功匹配的标准可以包括，若405中去除误匹配特征对后剩余的匹配特征对数量小于一定阈值，则不能成功匹配；若405中计算相似图像与查询图像之间仿射变换后，内群点数量少于一定阈值，或者仿射变换计算误差大于一定阈值，则不能成功匹配。

本实施例结合云端图像检索技术与本地图像匹配技术，对查询图像进行识别，判断其是否包含相似图像数据集中的一副或者多幅图像，在相比现有技术方案大大提高了识别准确度。

本实施例可以应用于二维增强现实技术管线中的目标触发阶段，以提升目标触发准确度，并有益于后续技术阶段的实施。

图5示出根据本发明一实施例的图像识别装置的结构框图。如图5所示，所述图像识别装置可以包括：

获取模块41，用于获取查询图像对应的相似图像，其中，所述相似图像为根据查询图像的第一视觉特征检索得到的图像，所述第一视觉特征包括图像的全局视觉特征和/或局部视觉特征；

匹配模块42，用于将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，所述第二视觉特征包括局部视觉特征；

去除模块43，用于从所述多组视觉特征对中去除误匹配的视觉特征对；

确定模块44，用于根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功。

在一种可能的实现方式中，如图6所示，获取模块41包括：

索引库建立子模块45，用于根据参考图像数据库中的各参考图像对应的第一视觉特征，建立图像特征索引库；

检索子模块47，用于根据查询图像的第一视觉特征，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像。

在一种可能的实现方式中，所述检索子模块47包括：

提取子模块471，用于从查询图像中提取第一视觉特征；根据第一视觉特征中的局部视觉特征确定该查询图像包括的视觉单词；

第一查找子模块472，用于按照图像特征索引库的索引结构，在图像特征索引库中查找包括查询图像的视觉单词的图像，确定候选图像集合；

第一确定子模块473，用于根据查询图像的第一视觉特征与候选图像集合中各候选图像的第一视觉特征，确定查询图像与各候选图像之间的视觉特征距离，所述视觉特征距离用于表示相似度；

排序子模块474，用于根据查询图像与各候选图像之间的视觉特征距离，对各候选图像进行排序；

第二确定子模块475，用于按照排序结果从各候选图像中确定出各相似图像。

在一种可能的实现方式中，所述匹配模块42还用于计算查询图像的每个局部视觉特征与相似图像的每个局部视觉特征的距离，按照各距离形成多组局部视觉特征对。

在一种可能的实现方式中，所述去除模块43还用于采用霍夫投票的方式对多组局部视觉特征对进行校验，去除误匹配的局部视觉特征对。

在一种可能的实现方式中，所述确定模块44还用于根据剩余的局部视觉特征对的数量，确定查询图像与相似图像是否匹配成功；或根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功。

在一种可能的实现方式中，所述确定模块44还用于采用随机抽样一致的方式计算剩余的局部视觉特征对之间的仿射变换。

在一种可能的实现方式中，所述确定模块44还用于根据仿射变换得到内群点数量，确定查询图像与相似图像是否匹配成功；或根据相似图像与查询图像之间的仿射变换的误差，确定查询图像与相似图像是否匹配成功。

图7示出根据本发明一实施例的增强现实的控制装置的结构框图。如图7所示，所述增强现实的控制装置包括：如上述实施例中任意一结构的图像识别装置71；

所述增强现实的控制装置还包括：

增强现实模块73，用于如果所述图像识别装置确定查询图像与相似图像匹配成功，则根据与查询图像的第二视觉特征匹配的相似图像，获取对应的增强现实案例的动画和交互过程。

图8示出根据本发明另一实施例的图像识别装置的结构框图，参照图8，图像识别装置可以包括识别装置模块21、识别服务器模块22。

识别装置模块21，调用子模块图像匹配特征提取模块211，及子模块图像匹配模块212，分别执行提取查询图像的匹配特征及对查询图像与参考图像进行图像匹配操作。

识别服务器模块22，调用子模块参考数据集检索特征提取及索引模块221，参考数据集匹配特征提取模块222，查询图像检索特征提取模块223，及查询图像检索模块224，分别执行为参考图像数据集提取索引特征并建立索引，为参考图像数据集提取匹配特征，为查询图像提取检索特征，在参考图像数据集中检索查询图像等操作。其中子模块221及222仅需要在参考图像数据集建立或更新图像时被调用一次。

本发明实施例提供一种图像识别装置，如图9所示，该图像识别装置包括：存储器310和处理器320，存储器310内存储有可在处理器320上运行的计算机程序。所述处理器320执行所述计算机程序时实现上述实施例中的虚拟现实的网页展示方法。所述存储器310和处理器320的数量可以为一个或多个。

该图像识别装置还包括：

通信接口330，用于与外界设备进行通信，进行数据交互传输。

存储器310可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器310、处理器320和通信接口330独立实现，则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器310、处理器320及通信接口330集成在一块芯片上，则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

本发明实施例的装置中各模块的功能可以参见上述方法的相关描述，在此不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，包括：

将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，所述第二视觉特征包括局部视觉特征，所述第二视觉特征是比所述第一视觉特征轻量级的特征；

从所述多组视觉特征对中去除误匹配的视觉特征对；

根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功；

其中，获取查询图像对应的相似图像，包括：根据参考图像数据库中的各参考图像对应的第一视觉特征，采用倒排索引的方式建立图像特征索引库；根据查询图像的第一视觉特征，按照图像特征索引库的倒排索引结构，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像。

2.根据权利要求1所述的方法，其特征在于，根据查询图像的第一视觉特征，按照图像特征索引库的倒排索引结构，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像，包括：

从查询图像中提取第一视觉特征；

按照图像特征索引库的倒排索引结构，在图像特征索引库中查找包括查询图像的视觉单词的图像，确定候选图像集合；

按照排序结果从各候选图像中确定出各相似图像。

3.根据权利要求1至2中任一项所述的方法，其特征在于，将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，包括：

4.根据权利要求3所述的方法，其特征在于，从多组视觉特征对中去除误匹配的视觉特征对，包括：

5.根据权利要求3所述的方法，其特征在于，根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功，包括：

6.根据权利要求5所述的方法，其特征在于，根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，包括：

7.根据权利要求5所述的方法，其特征在于，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功，包括：

8.一种增强现实的控制方法，其特征在于，包括：

采用权利要求1至7中任一项所述的图像识别方法，确定查询图像是否匹配成功；

9.一种图像识别装置，其特征在于，包括：

匹配模块，用于将查询图像的第二视觉特征与相似图像的第二视觉特征进行匹配，形成多组视觉特征对，所述第二视觉特征包括局部视觉特征，所述第二视觉特征是比所述第一视觉特征轻量级的特征；

确定模块，用于根据剩余的视觉特征对，确定查询图像与相似图像是否匹配成功；

其中，所述获取模块包括：

索引库建立子模块，用于根据参考图像数据库中的各参考图像对应的第一视觉特征，采用倒排索引的方式建立图像特征索引库；

检索子模块，用于根据查询图像的第一视觉特征，按照图像特征索引库的倒排索引结构，在图像特征索引库中进行检索，得到与查询图像的第一视觉特征相似的各相似图像。

10.根据权利要求9所述的装置，其特征在于，所述检索子模块包括：

第一查找子模块，用于按照图像特征索引库的倒排索引结构，在图像特征索引库中查找包括查询图像的视觉单词的图像，确定候选图像集合；

11.根据权利要求9至10中任一项所述的装置，其特征在于，所述匹配模块还用于计算查询图像的每个局部视觉特征与相似图像的每个局部视觉特征的距离，按照各距离形成多组局部视觉特征对。

12.根据权利要求11所述的装置，其特征在于，所述去除模块还用于采用霍夫投票的方式对多组局部视觉特征对进行校验，去除误匹配的局部视觉特征对。

13.根据权利要求11所述的装置，其特征在于，所述确定模块还用于根据剩余的局部视觉特征对的数量，确定查询图像与相似图像是否匹配成功；或根据剩余的局部视觉特征对，计算相似图像与查询图像之间的仿射变换，根据仿射变换的结果，确定查询图像与相似图像是否匹配成功。

14.根据权利要求13所述的装置，其特征在于，所述确定模块还用于采用随机抽样一致的方式计算剩余的局部视觉特征对之间的仿射变换。

15.根据权利要求13所述的装置，其特征在于，所述确定模块还用于根据仿射变换得到内群点数量，确定查询图像与相似图像是否匹配成功；或根据相似图像与查询图像之间的仿射变换的误差，确定查询图像与相似图像是否匹配成功。

16.一种增强现实的控制装置，其特征在于，包括：如权利要求9至15中任一项所述的图像识别装置；

所述增强现实的控制装置还包括：

17.一种图像识别装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的方法。