CN103842991A

CN103842991A - 图像处理装置、图像处理方法和程序

Info

Publication number: CN103842991A
Application number: CN201280046751.6A
Authority: CN
Inventors: 笠原俊一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-10-03
Filing date: 2012-08-15
Publication date: 2014-06-04
Also published as: EP2764452A1; US20140193038A1; JP2013080326A; US9355496B2; WO2013051180A1; BR112014007447A2; IN2014CN02345A

Abstract

一种信息处理系统：获取由图像拾取单元捕捉的图像；获取各自包括一个或多个字段的一个或多个模板；将所述图像与所述一个或多个模板相比较；以及基于所述比较输出结果，所述结果指示对所述一个或多个模板的一个或多个字段中每个字段的识别是否成功。

Description

图像处理装置、图像处理方法和程序

技术领域

本公开涉及图像处理装置、图像处理方法和程序。

背景技术

近年来，对通过将附加信息叠加在真实世界上来向用户呈现这类信息的被称为增强现实(AR)的技术已经得到关注。由AR技术呈现给用户的信息可以使用诸如文本、图标和动画的各种形态的虚拟对象来可视化。

JP2011-081557A是与显示AR对象有关的文档的一个例子。在引用公开文献所公开的技术中，AR对象在与真实世界中存在的真实对象相关联的位置处显示。

引文列表

专利文献

PTL1：JP2011-081557A

发明内容

技术问题

在许多AR应用中，基于使用输入图像的图像识别来选择和布置AR对象。这意味着输入图像的合成（其取决于视角、缩放位置和相机朝向等）影响AR应用的有效操作。因此，如果能够在用户调整输入图像合成的同时执行图像识别，将变得能够以更高的可靠性向用户提供有用信息。

问题的解决方案

一种由信息处理系统执行的信息处理方法，所述方法包括：获取由图像拾取单元捕捉的图像；获取各自包括一个或多个字段的一个或多个模板；将所述图像与所述一个或多个模板相比较；以及基于所述比较输出结果，所述结果指示对所述一个或多个模板的一个或多个字段中每个字段的识别是否成功。

一种包括计算机程序指令的非暂态计算机可读介质，所述计算机程序指令在由信息处理系统执行时使得所述信息处理系统执行一种方法，所述方法包括：获取由图像拾取单元捕捉的图像；获取各自包括一个或多个字段的一个或多个模板；将所述图像与所述一个或多个模板相比较；以及基于所述比较输出结果，所述结果指示对所述一个或多个模板的一个或多个字段中每个字段的识别是否成功。

根据上述实施例，使得AR应用能够更为可靠地向用户提供有用信息。

附图说明

图1是用于说明根据本公开一个实施例的图像处理装置的概要的图示。

图2是示出了根据同一实施例的图像处理装置的硬件配置的一个例子的框图。

图3是示出了根据同一实施例的信息处理装置的逻辑功能配置的一个例子的框图。

图4A是用于说明输入图像中出现的对象的第一例的图示。

图4B是用于说明与图4A所示对象相对应的模板的一个例子的图示。

图5A是用于说明输入图像中出现的对象的第二例的图示。

图5B是用于说明与图5A所示对象相对应的模板的一个例子的图示。

图6A是用于说明输入图像中出现的对象的第三例的图示。

图6B是用于说明与图6A所示对象相对应的模板的一个例子的图示。

图7是用于说明根据同一实施例的显示识别结果的第一例的图示。

图8A是用于说明根据同一实施例的显示识别结果的第二例的图示。

图8B是用于说明根据同一实施例的显示识别结果的第三例的图示。

图9是用于说明根据同一实施例的显示识别结果的第四例的图示。

图10是用于说明根据同一实施例的显示识别结果的第五例的图示。

图11是用于说明根据同一实施例的能被显示的相关信息的第一例的图示。

图12是用于说明根据同一实施例的能被显示的相关信息的第二例的图示。

图13是用于说明根据同一实施例的能被显示的相关信息的第三例的图示。

图14是示出了根据同一实施例的图像处理流程的一个例子的流程图。

图15是示出了图14所示字段识别处理的详细流程的一个例子的流程图。

具体实施方式

其后，将参考附图详细描述本公开的优选实施例。注意到，在本说明书和附图中，具有基本相同功能和结构的结构性元件由相同的参考编号所指示，并由此省略对这些结构性元件的重复解释。

随后的描述以如下所示的次序给出。

1.概要

2.根据本公开实施例的图像处理装置的示例性配置

2-1.硬件配置

2-2.功能配置

2-3.处理流程

3.结论

1.概要

图1是用于说明本公开实施例的概要的图示。图1示出了由真实世界1中的用户携带的图像处理装置100。

图像处理装置100是一种在屏幕上显示通过对真实世界进行图像拾取而产生的图像的装置。图像处理装置100可以是诸如智能电话、PDA（个人数字助理）、PND（便携式导航设备）、游戏控制台或便携式音乐播放器的终端装置，或者可以是诸如PC（个人计算机）或工作站的信息处理装置。

真实世界1是其中可以使用图像处理装置100的空间的一个例子。真实对象10a和10b存在于该真实世界1中。真实对象10a是提供导航信息的真实对象。作为示例，真实对象10a可以是用于在车站显示列车换乘的布告牌、用于交通或路线信息的路边布告板、或是商业设施内用作店铺导览的海报。真实对象10b是显示图像10c的信息机器。作为示例，真实对象10b可以是数字标记监视器、PC（个人计算机）、智能电话或电视机。图像10c是向用户提供某类信息的被显示对象。

在本实施例中，由真实对象10a提供的导航信息被可视化以具有与同类导航信息共有的可视结构。作为一例，在外观上，在A车站、B车站和C车站设置的布告板将会具有共同的结构。由此，只是由这些布告板显示的信息内容将会是不同的。图1所示的图像处理装置100使用随后描述的模版来识别真实对象10a的结构并标识该真实对象10a。以相同方式，由真实对象10b显示的图像10c被可视化以具有与同类导航信息共有的可视结构。作为一例，在外观上，在网站上提供餐厅信息的各单独餐厅的网页将会具有共同的结构。由此，只是由这些单独网页提供的信息内容将会是不同的。图1所示的图像处理装置100使用随后描述的模板来识别这类图像10c的结构以标识图像10c。图像处理装置100将基于这类对象的标识结果来实现各类AR应用。2.根据本公开实施例的图像处理装置的示例性配置

2-1.硬件配置

图2是示出了根据本实施例的图像处理装置100的硬件配置的一个例子的框图。如图2所示，图像处理装置100包括图像拾取单元102、传感器单元104、输入单元106、存储单元108、显示单元110、通信单元112、总线116和控制单元118。

(1)图像拾取单元

图像拾取单元102是拾取图像的相机模块。图像拾取单元102使用诸如CCD（电荷耦合器件）或CMOS（互补金属氧化物半导体）的图像拾取元件来拾取真实世界的图像，以生成拾取图像。由图像拾取单元102生成的拾取图像是要由控制单元118进行图像处理的输入图像。注意到图像拾取单元102没有必要是图像处理装置100的一部分。作为一例，无线或使用有线连接至图像处理装置100的图像拾取装置可被看作是图像拾取单元102。

(2)传感器单元

传感器单元104可以包括诸如定位传感器、加速度传感器和陀螺传感器之类的各种传感器。例如，传感器单元104可以包括接收GPS（全球定位系统）信号并测量图像处理装置100的全球位置的GPS传感器。传感器单元104可以包括基于从一个或多个无线接入点接收到的无线信号的强度来测量该图像处理装置100的位置的定位传感器。

(3)输入单元

输入单元106是用户用来操作图像处理装置100或向图像处理装置100输入信息的输入设备。作为一例，输入单元106可以包括检测由用户在显示单元110的屏幕上做出的触摸的触摸传感器。作为其代替（或是附加），输入单元106可以包括诸如鼠标或触摸板的定点设备。此外，输入单元106还可以包括另一类型的输入设备，诸如键盘、小键盘、一个或多个按钮、或一个或多个开关。

(4)存储单元

存储单元108由诸如半导体存储器或硬盘驱动器的存储介质组成并且存储用于由图像处理装置100处理的程序和数据。由存储单元108存储的数据可以包括随后描述的拾取图像数据、传感器数据以及各类数据库（DB）中的数据。注意到作为在存储单元108中存储的代替，本说明书中描述的某些程序和数据可由从外部数据源（例如，数据服务器、网络存储装置或外部存储器）获取。

(5)显示单元

显示单元110是包括诸如LCD（液晶显示器）、OLED（有机发光二极管）或CRT（阴极射线管）的显示器的显示模块。作为一例，显示单元110被用于显示由图像处理装置100生成的AR应用的图像。注意到显示单元110没有必要是图像处理装置100的一部分。作为一例，无线或使用有线连接至图像处理装置100的显示装置可被看作是显示单元110。

(6)通信单元

通信单元112是用作该图像处理装置100与其他装置的居间传递者的通信接口。通信单元112支持任意无线通信协议或有线通信协议并且建立与其他装置的通信连接。

(7)总线

总线116将图像拾取单元102、传感器单元104、输入单元106、存储单元108、显示单元110、通信单元112和控制单元118彼此连接。

(8)控制单元

控制单元118与诸如CPU（中央处理单元）或DSP（数字信号处理器）的处理器相对应。通过执行存储在存储单元108或其他存储介质中的程序，控制单元118使得该图像处理装置100以如下描述的各种方式起作用。

2-2.功能配置

图3是示出由图2所示图像处理装置100的存储单元108和控制单元118实现的逻辑功能配置的一个例子。如图3所示，图像处理装置100包括图像获取单元120、模板数据库(DB)125、模板获取单元130、模板匹配单元140、参考图像DB145、识别单元150、显示控制单元160、相关信息DB165和信息获取单元170。

(1)图像获取单元

图像获取单元120获取由图像拾取单元102生成的拾取图像作为输入图像。由图像获取单元120获取的输入图像是由真实世界的图像拾取产生的图像。每幅输入图像可以是静止图像，也可以是组成视频图像的一帧。图像获取单元120将获取的输入图像输出至模板匹配单元140、识别单元150和显示控制单元160。

(2)模板DB

模板DB125是存储多个模板的数据库，每个模版各自表示具有真实世界中可视结构的对象结构。可以典型地针对各种类型的对象定义模板。例如，可以预先定义针对诸如由于显示换乘信息的布告牌、用于交通或路线信息的路边布告牌、用于店铺导览的海报和提供餐馆信息的网页之类的各类对象的模板。在本实施例中，存储在模板DB125中的每个模板包括至少一个字段，且每个字段都与由相应对象可视化的信息相关联。每个模板中包括的一个或多个字段是标识字段并且与使对象能被唯一标识的信息相关联。

在本说明书中，表达“对象的标识”指的是从可视化各种不同信息的多个对象中指定具体对象。作为一例，在车站A、车站B和车站C内分别设置的布告牌中指定特定车站内设置的布告牌就使用上述表达“对象的标识”来表达。如下将参考图4A至6B描述由可由模板DB125存储的模板的三个例子。

(2-1)第一例

图4A是用于说明输入图像中出现的对象的第一例的图示。图4B是用于说明与图4A所示对象相对应的模板的一个例子的图示。

如图4A所示的对象12a是车站内的向导布告牌。对象12a包括其上书写车站名的柱状部和其上书写向导信息的板状部。在图4A左侧的板状部上，书写的向导信息已被分成多个部分。

图4B所示的模板T1是示出了作为存在于真实世界的真实对象的对象12a的可视结构的模板。模板T1包括十个字段F10至F19。字段F10（Station_Name_text(车站名文本)）是标识字段并且与车站名相关联。字段F11（Title_text(标题文本)）是常规字段并且与标题字符串相关联。字段F12（Left_SubTitle_text(左副标题文本)）和字段F13（Right_SubTitle_text(右副标题文本)）是常规字段并且与副标题字符串相关联。字段F14（Left_Contents_text(左内容文本)）和字段F15（Right_Contents_text(右内容文本)）是常规字段并且与向导信息的内容相关联。字段F16至F19是常规字段并且与广告信息相关联。模板是定义这一个或多个字段与对应字段的属性之间的位置关系的数据。模板还可以包括被共同包括在相应对象内的字符和符号等的图像（例如，模板T1中的“i”符号）。

(2-2)第二例

图5A是用于说明输入图像中出现的对象的第二例的图示。图5B是用于说明与图5A所示对象相对应的模板的一个例子的图示。

图5A所示的对象12b是由存在真实世界中的信息机器11b显示的有关餐馆信息的网页。对象12b包括网页的标题、标识餐馆的标识信息以及餐馆信息的内容。

图5B所示的模板T2是表达作为网页的对象12b的可视信息的模板。模板T2包括六个字段F20至F25。字段F20（Area_text(区域文本)）是一个标识字段并且与区域名相关联。字段F21（Name_text(名称文本)）是另一标识字段并且与餐馆名相关联。字段F22（Title_text(标题文本)）是常规字段并且与标题字符串相关联。字段F23（Contents_text(内容文本)）是常规字段并且与餐馆信息的内容相关联。字段F24（Photo1_image(照片1图像)）和字段F25（Photo2_image(照片2图像)）是常规字段并且与图像信息相关联。以此方式，一个模板可以包括多个标识字段。包括在该模板中的各字段可以与文本信息相关联，也可以与图像信息相关联。

(2-3)第三实施例

图6A是用于说明输入图像中出现的对象的第三例的图示。图6B是用于说明与图6A所示对象相对应的模板的一个例子的图示。

图6A所示的对象12c是由存在于真实世界中的信息机器11b显示的有关社交网络的网页。对象12c包括网页的标题、标识个人的标识信息、朋友信息和简档信息等。

图6B所示的模板T3是表达作为网页的对象12c的可视结构的模板。模板T3包括十个字段F30至F39。字段F30（Portrait_image(肖像图像)）是一个标识字段并且与个人面部图像相关联。字段F31（Nickname_text(昵称文本)）是常规字段并且与昵称相关联。字段F32（Title1_text(标题1文本)）和字段F34（Title2_text(标题2文本)）是常规字段并且与标题字符串相关联。字段F33（Contents1_text(内容1文本)）和字段F35（Contents2_text(内容2文本)）是常规字段并且与各类信息的内容相关联。字段F36（Friend1_image(朋友1图像)）和字段F38（Friend2_image(朋友2图像)）是常规字段并且与朋友的面部图像相关联。字段F37（Friend1_text(朋友1文本)）和字段F39（Friend2_text(朋友2文本)）是常规字段并且与朋友的昵称相关联。以此方式，与模板内包括的各字段中的图像信息相关联的字段可以是标识字段。

(3)模板获取单元

当由图像处理装置100执行图像处理时，模板获取单元130获取存储在模板DB125中的上述至少一个模板。模板获取单元130随后将获取的一个或多个模板输出至模板匹配单元140。

(4)模板匹配单元

模板匹配单元140将由图像获取单元120获取的输入图像与由模板获取单元130获取的一个或多个模板相匹配。例如模板匹配单元140可以从输入图像中提取边缘。接下来，模板匹配单元140在三维地改变各模板的位置和姿势的同时，确定从输入图像中提取的边缘与各模板中包括的字段框架之间的匹配程度。如果存在匹配程度超过规定匹配程度的模板，模板匹配单元140则在随后确定输入图像中出现的与模板相对应的对象。模板匹配单元140将匹配结果（例如，匹配模板的标识符、位置及姿势）输出至识别单元150。

(5)参考图像DB

参考图像DB145是存储由识别单元150执行的字段识别处理所参考的现有图像的数据库。作为一例，参考图像DB145可以存储将餐馆外观照片与餐馆标识符关联生成的图像。参考图像DB145还可以与个人标识符关联地存储该人的面部图像。注意到在由识别单元150执行的字段识别处理中参考的图像不限于这些例子并且可以是其他类型的图像。

(6)识别单元

如果模板之一与输入图像相匹配，则识别单元150就从输入图像中识别与包括在匹配模板中的至少一个字段相关联的信息。作为一例，识别单元150通过对与文本信息相关联的字段执行OCR（光学字符识别）来识别与这些字段相关联的文本信息。同样地，识别单元150通过将与关联图像信息的字段相对应的输入图像部分与由参考图像DB145存储的图像相匹配来识别与这些字段相关联的信息。作为一例，识别单元150可以通过保持与输入图像匹配的模板姿势以使得对象的相应表面直接面对图像拾取面并使得经处理的输入图像经历OCR或与现有图像的匹配来处理输入图像。

在本实施例中，识别单元150基于使用模板从输入图像中识别出的信息来标识输入图像中出现的对象。作为一例，如果图4B所示模板T1与输入图像相匹配，则识别单元150可以基于从标识字段F10读取的车站名来标识其向导布告牌被识别出来的车站作为输入图像中出现的对象。另举一例，如果图5B所示模板T2与输入图像匹配，则识别单元150可以基于从标识字段F20和F21读取的区域名和餐馆名来标识作为被识别的网页主体的餐馆来作为输入图像中出现的对象，该餐馆是被识别的网页主题。再举一例，如果图6B所示模板T3与输入图像匹配，则识别单元150可以基于对应于标识字段F30的图像部分与现有面部图像的匹配结果来标识个人作为输入图像中出现的对象，该个人是所识别的网页主题。注意到如果已经从非标识字段中识别出用于标识对象的充足信息，那么该识别单元150也可以基于这些信息来标识对象。

由识别单元150进行的与各字段相关联的信息识别并不总是成功。例如，如果与模板中一个或多个字段相对应的位置没有在输入图像中出现，则识别单元150可能无法识别与这些字段相关联的信息。同样地，在其中与某些字段相对应的部分在输入图像中看起来很小的情况下，或是在其中对象表面不直接面对图像拾取面的情况下，可能难以识别与这些字段相关联的信息。出于这些原因，为了让用户调整输入图像的构图，识别单元150向显示控制单元160输出与各字段相关联的信息识别成功与否的通知。

(7)显示控制单元

显示控制单元160在显示单元110的显示器上显示识别单元150对至少一个字段的识别结果。例如，如果输入图像中没有出现标识字段，显示控制单元160可以具有敦促用户在使得这一标识字段在显示器上显示的方向上移动图像拾取单元102的指示，使得用户能够支持由识别单元150进行的对象标识。同样地，如果输入图像中出现的标识字段尺寸较小，显示控制单元160可以在显示器上显示敦促用户让标识字段在拾取图像中更大的指示。在看到这一指示之后，用户可以移动图像拾取单元102或改变缩放比例，由此促进与标识字段相关联的信息的识别。如果与标识字段相关联的信息识别已经成功，则显示控制单元160还可以指导用户促进对这一标识字段之外的其他字段的识别。例如，通过在输入图像上叠加表达对每个字段的关联信息识别成功与否的指示，显示控制单元160就能够引导用户支持相关信息识别失败的字段的识别。

图7是用于说明显示控制单元160的识别结果的显示的第一例的图示。在图7左侧，其中出现了对象12a的图像Im11在图像处理装置100的显示器上显示。在此，对象12a的标识字段（与其对应的部分）没有充分出现在图像Im11中。出于这一原因，显示控制单元160在图像Im11上叠加敦促用户在输入图像中定位对象12a的标识字段的指示D1。在看见这一指示D1后，用户可以例如移动或旋转该图像处理装置100，以在输入图像中定位对象12a的标识字段。在图7右侧，示出基于从标识字段中识别出的信息而成功标识对象12a的指示D2被叠加在出现该对象12a的图像Im12上。

图8A是用于说明显示控制单元160的识别结果的显示的第二例的图示。在图8A所示的图像Im21中，半透明矩形指示被叠加在信息识别已经成功的字段上，而透明矩形指示则被叠加在信息识别已经失败的字段上。在看见这类指示之后，用户可以操作该图像处理装置100（或图像拾取单元102）来使得与信息识别失败的字段对应的图像部分在输入图像上看起来更大或更清楚。图8B是用于说明显示控制单元160的识别结果的显示的第三例的图示。在图8B的例子中，指示没有叠加在信息识别成功的字段上，并且透明矩形指示仅叠加在信息识别失败的字段上。同样在此情况下，通过移除指示来告知用户信息识别成功与否，就能够引导用户促进对信息识别失败字段的识别。

图9是用于说明显示控制单元160的识别结果的显示的第四例的图示。其中出现了由存在于真实世界2中的信息机器11b显示的对象12c的图像Im31如图9所示在图像处理装置100的显示器上显示。虽然对象12c的标识字段F30（与其对应的部分）出现在图像Im31中，但该字段很小，使得对标识字段F30的信息的识别可能失败。为此，显示控制单元160将指示D3覆盖在图像Im31上，以敦促用户使得标识字段F30在输入图像中看上去更大。在看见这一指示D3之后，用户可以例如将图像处理装置100靠近信息机器11b或改变缩放比例，以使得标识字段F30在输入图像中看上去更大。由此，对标识字段F30的信息的识别将会更可靠地成功。

图10是用于说明显示控制单元160的识别结果的显示的第五例的图示。如图10所示，其中出现对象12c的图像Im41被显示在图像处理装置100的显示器上。虽然对象12c出现在图像Im41中，但是由于该对象12c的尺寸过大，而使得没有模板与该对象12c相匹配。为此，显示控制单元160将指示D4覆盖在图像Im41上，以敦促用户使得对象12c在输入图像中看上去更小。在看见这一指示D4之后，用户可以使得整个对象12c出现在输入图像内以使得例如图6B所示模板T3与输入图像中出现的对象12c相匹配。

如果通过上述显示控制单元160和用户之间的协作已经成功识别对象，或者如果全部必须信息已由识别单元150识别，则可以开始AR应用的执行。例如，显示控制单元160使得信息获取单元170获取与由识别单元150标识的对象相关的相关信息。在此之后，显示控制单元160在显示器上显示由信息获取单元170获取的相关信息。

(8)相关信息DB

相关信息DB165是存储要为AR应用显示的各类信息的数据库。在该相关信息DB165中，每条相关信息都与对象之一或通过可视化对象之一生成的信息相关联。相关信息例如可以是AR应用的注解。例如，如果已在输入图像中标识关联对象，则可将注解叠加在该输入图像上以布置在该对象周围。另外，该相关信息也可以是表示比拾取（输入）图像更高质量的关联对象图像的图像信息。作为一例，如果在输入图像中出现的对象被识别，则可以在显示器上输入图像处显示比输入图像更高质量的对象图像。相关信息DB165可以存储根据图像处理装置100的位置动态获取的相关信息。

(9)信息获取单元

信息获取单元170从相关信息DB165或外部服务器获取与识别单元150标识的对象相关的相关信息。信息获取单元170将获取的相关信息输出至显示控制单元160并使得显示控制单元160执行用于AR应用的显示处理。作为一例，由信息获取单元170获取的相关信息可以包括在前描述的注解、图像信息或经由通信单元112从网站获取的信息。

图11是用于说明可在本实施例中显示的相关信息的第一例的图示。在图11左侧，在图像处理装置100的显示器上显示的是图7例示的图像Im12。图像Im12的指示D2示出了识别单元150对图像Im12中出现的对象12a的标识成功的指示。对象12a例如是位于东京站的布告牌。如果对象12a的标识已成功，则信息获取单元170获取与该对象12a相关的相关信息。显示控制单元160随后将由信息获取单元170获取的相关信息叠加在输入图像上。在图11的右侧，相关信息A1被叠加在图像Im13上。作为一例，相关信息A1是列车到达和离开东京站的服务信息。

图12是用于说明可在本实施例中显示的相关信息的第二例的图示。在图12左侧，在图像处理装置100的显示器上显示的是图7例示的图像Im12。如果对象12a的标识已成功，则信息获取单元170获取表示对象12a的更高质量图像的图像信息作为相关信息。显示控制单元160随后使用从信息获取单元170输入的该图像信息来显示对象12a的更高质量图像来代替所述输入图像。在图12右侧，在图像处理装置100的显示器上显示的是对象12a的更高质量图像Im14。显示控制单元160还可以将诸如图11所示的相关信息叠加在图像Im14上。

图13是用于说明可在本实施例中显示的相关信息的第三例的图示。在图13左侧，在图像处理装置100的显示器上显示的是其中出现了对象12c的图像Im32。图像Im32中的指示D3示出了识别单元150对对象12c的识别已经成功。对象12c是提供关于特定个体的个人信息的网页。如果对象12c的识别已成功，则信息获取单元170获取与该对象12c相关的相关信息。对象的识别例如可以包括从对象12c提取面部图像并将所提取的面部图像与图像数据的数据库相比较以标识特定个体的面部识别处理。随后，例如信息获取单元170可以将请求传送识别单元150标识的个人的网页的HTTP（超文本传输协议）请求传送给社交网络的网站以获取与对象12c相同的网页。显示控制单元160随后在图像处理装置100的显示器上显示由信息获取单元170获取的网页。在图13右侧，显示的是该网页的图像Im33。另举一例，对象的识别可以包括从对象12c识别网站的登录信息。随后，例如信息获取单元170可以将包括由识别单元150标识的登录信息的HTTP（超文本传输协议）请求传送给网站以登录到该网页中。显示控制单元160随后在图像处理装置100的显示器上显示由信息获取单元170获取的网页。

注意到由信息获取单元170从网站获取的信息并不需要是该网页本身。作为一例，如果已经标识出提供餐馆信息的网站上单个餐馆的网页，则可以获取该餐馆的优惠券信息。

2-3.处理流程

图14是示出了根据本实施例的由图像处理装置100进行的图像处理流程的一个例子的流程图。

如图14所示，首先图像获取单元120获取由图像拾取单元102生成的拾取图像作为输入图像（步骤S102）。图像获取单元120随后将获取的输入图像输出至模板匹配单元140、识别单元150和显示控制单元160。同样地，模板获取单元130在图像处理装置100进行图像处理期间获取由模板DB125存储的一个或多个模板（步骤S104）。模板获取单元130随后将获取的一个或多个模板输出至模板匹配单元140。

接下来，模板匹配单元140将从图像获取单元120输入的输入图像与从模板获取单元130输入的各模板进行匹配（步骤S106）。模板匹配单元140随后将匹配结果输出至识别单元150。

在此之后，识别单元150基于从模板匹配单元140输入的匹配结果判定是否存在与输入图像相匹配的模板（步骤S108）。在此，如果不存在与输入图像相匹配的模板，则该处理返回到步骤S102并且可以获取下一个输入图像。注意到在下一个处理迭代中可以省略步骤S104中的模板获取。

如果在步骤S108,存在与输入图像相匹配的模板，则识别单元150从输入图像中识别与包括在匹配模板中的字段相关联的信息（步骤S110）。随后将更详细地描述在此执行的字段识别处理。接下来，识别单元150基于使用模板从输入图像中识别出的信息来标识输入图像中出现的对象（步骤S120）。识别单元150随后将各字段的识别结果以及对象的标识结果输出至显示控制单元160。

接下来，显示控制单元160判定是否已经标识出输入图像中出现的对象（步骤S122）。在此，如果尚未标识出输入图像中出现的对象，显示控制单元160就在显示器上显示指导用户以促进标识字段的识别的指示，由此支持对象标识（步骤S124）。

另外，如果已经标识出输入图像中出现的对象，显示控制单元160就判定是否完成对AR应用执行的准备（步骤S126）。例如，在一个或多个标识字段之外的其他字段中的信息识别没有成功而无法执行AR应用的情况下，可以在对任意字段的信息识别没有成功时判定没有完成对AR应用执行的准备。在此情况下，显示控制单元160在显示器上显示用于指导用户以促进对一个或多个标识字段之外的其他字段识别的指示（步骤S128）。

如果在步骤S126中，完成了对AR应用执行的准备，则执行该AR应用（步骤S130）。例如，由信息获取单元170获取与标识对象相关的相关信息并由显示控制单元160在显示器上显示获取的相关信息。

图15是示出了图14的步骤S110中由识别单元150执行的字段识别处理的详细流程的一个例子的流程图。

为包括在与输入图像匹配的模板中的每个字段重复图15所示步骤S112至步骤S114的处理（步骤S111）。首先，识别单元150判定该模板中是文本信息还是图像信息与当前处理的字段相关联（步骤S112）。如果当前处理的字段与文本信息相关联，则识别单元150对输入图像与这一字段相对应的部分应用OCR并识别与这一字段相关联的文本信息（步骤S113）。然而，如果当前处理的字段与图像信息相关联，则识别单元150将输入图像与这一字段相对应的部分与存储在参考图像DB145中的现有图像相匹配以识别与这一字段相关联的信息（步骤S114）。

当已经为包括在与输入图像匹配的模板中的每个字段完成了步骤S112至步骤S114中的处理时，识别单元150判定对一个或多个标识字段的识别已经成功（步骤S115）。在此，如果对一个或多个标识字段的识别已经成功，则识别单元150基于从一个或多个标识字段中识别出的信息进一步标识输入图像中出现的对象（步骤S116）。识别单元150随后将各个字段的识别结果以及对象的标识结果输出至显示控制单元160。

3.结论

已经参考图1至图15详细描述了本公开的优选实施例。根据本公开的该实施例，使用表达真实世界中对象的可视结构的模板来检测输入图像中出现的对象，并且为包括在该模板中的每个字段识别该对象上的可视化信息。在这样做时，由于至少一个字段的识别结果在显示器上显示，因此用户能够调整输入图像的构图以使得AR应用有效操作。因此，AR应用就能够向用户更可靠地提供有用信息。具体地，通过不仅显示对象标识是否已经成功还显示作为对象成功标识前提的各字段识别的中间结果，使得用户能够有效支持AR应用进行的图像处理。

同样地，根据本实施例，模板包括与能够唯一标识对象的信息相关联的一个或多个标识字段。根据这一配置，具有共享可见结构且所提供信息内容不同的多个对象能够使用单个模板来标识。由此，在从大量对象中标识对象的情况下，就能够降低定义模板的负载并避免模板使用的数据总量的过度增加。还可以引导用户来促进对与输入图像匹配的模板的标识字段的识别。由于对象成功识别变得容易，因此能够为用户提供更多的机会享受AR应用带来的益处（例如，有用信息的提供）。

根据本实施例，对于与文本信息相关联的字段，能够使用OCR技术来识别这些字段内的信息。同样地，对于与图像信息相关联的字段，能够使用现有图像信息来识别这些字段内的信息。通过以此方式在各字段的识别方法之间切换，能够使用模板标识各种各样的对象。

根据本实施例，能够标识真实世界中存在的真实对象，并且能够显示与信息机器显示的图像相对应的对象。例如，如果显示的对象是网页，则基于使用模板对该网页的标识结果，使得已经拾取了输入图像的装置能够容易地获取在输入图像中出现的网页或与该网页相关的信息。换句话说，没有必要执行诸如输入URL或搜索网页之类的麻烦的操作。

注意到在前描述的图像处理装置100的某些逻辑功能可以在云计算环境中存在的装置处实现，作为在图像处理装置本身处实现的代替。以此方式，逻辑功能之间交换的信息可以经由图12所示的通信单元112在各装置之间发送或接收。

由在本说明书中描述的各装置执行的一系列控制处理可由软件、硬件或软硬件的结合实现。组成软件的程序可被例如预先存储在设置在各装置内部或外部的存储介质上。作为一例，在执行期间，这些程序可被写入RAM（随机存取存储器）并由诸如CPU的处理器执行。

虽然业已参考附图对本公开的优选实施例进行了描述，但是本公开的技术范围不受这些实施例所限。

本领域技术人员应该理解的是，取决于设计要求和其他因素，会出现各种修改、组合、子组合和变化，而这些修改、组合、子组合和变化仍将位于所附权利要求或其等效方案的范围内。

此外，本技术还可如下构成。

(1)一种信息处理系统，包括：一个或多个处理单元，用于：获取由图像拾取单元捕捉的图像；获取各自包括一个或多个字段的一个或多个模板；将所述图像与所述一个或多个模板相比较；以及基于所述比较输出结果，所述结果指示对所述一个或多个模板的一个或多个字段中每个字段的识别是否成功。

(2)如(1)所述的信息处理系统，其中所述图像包括对象并且所述一个或多个处理单元识别所述对象的结构。

(3)如(2)所述的信息处理系统，其中所述一个或多个处理单元通过检测在所述对象中包括的一个或多个字段来识别所述对象的结构。

(4)如(1)至(3)中任一项所述的信息处理系统，其中所述一个或多个处理单元从所述图像提取边缘。

(5)如(4)所述的信息处理系统，其中所述一个或多个处理单元通过确定从所述图像提取的边缘与所述一个或多个模板中包括的字段的框架之间的匹配程度而将所述图像与所述一个或多个模板进行比较。

(6)如(4)至(5)中任一项所述的信息处理系统，其中所述一个或多个处理单元通过在改变所述一个或多个模板的位置的同时确定从所述图像提取的边缘与所述一个或多个模板中包括的字段的框架之间的匹配程度而将所述图像与所述一个或多个模板进行比较。

(7)如(4)至(6)中任一项所述的信息处理系统，其中所述一个或多个处理单元通过在改变所述一个或多个模板的姿势的同时确定从所述图像提取的边缘与所述一个或多个模板中包括的字段的框架之间的匹配程度而将所述图像与所述一个或多个模板进行比较。

(8)如(1)至(7)中任一项所述的信息处理系统，其中所述一个或多个处理单元从所述图像中识别与匹配模板中包括的至少一个字段相关联的信息。

(9)如(8)所述的信息处理系统，其中所述至少一个字段是基于识别所述匹配模板而选择的字段。

(10)如(1)至(9)中任一项所述的信息处理系统，其中所述一个或多个处理单元通过对所述图像的与匹配模板中包括的至少一个字段相关联的部分执行光学字符识别（OCR）来从所述图像中识别与所述至少一个字段相关联的信息。

(11)如(1)至(10)中任一项所述的信息处理系统，其中所述一个或多个处理单元通过将所述图像的与匹配模板中包括的至少一个字段相关联的部分与存储的图像信息进行匹配来从所述图像中识别与所述至少一个字段相关联的信息。

(12)如(1)至(11)中任一项所述的信息处理系统，其中与所述至少一个字段相关联的图像是面部图像，并且所述面部图像与存储的面部图像信息匹配。

(13)如(1)至(8)中任一项所述的信息处理系统，其中所述一个或多个处理单元控制显示器以在所述图像上叠加所识别的信息。

(14)如(1)至(13)中任一项所述的信息处理系统，其中所述一个或多个处理单元基于所述比较的结果生成用于指导所述图像拾取单元的用户调整所述图像拾取单元的辅助信息。

(15)如(14)所述的信息处理系统，其中所述辅助信息指示用户改变所述图像拾取单元的朝向。

(16)如(14)至(15)中任一项所述的信息处理系统，其中所述辅助信息指示用户改变所述图像拾取单元的位置和设置中的至少一种以改变由所述图像拾取单元所捕捉的图像的大小。

(17)如(1)至(16)中任一项所述的信息处理系统，其中基于所述比较输出的结果包括控制显示器以将识别成功的一个或多个字段与识别没有成功的一个或多个字段不同地显示。

(18)如(1)至(17)中任一项所述的信息处理系统，其中捕捉到的图像和所述一个或多个模板与网页相对应。

(19)如(18)所述的信息处理系统，其中所述一个或多个处理单元从所述图像中识别与对应于所述网页的匹配模板中包括的至少一个字段相关联的信息。

(20)如(19)所述的信息处理系统，其中所述一个或多个处理单元基于识别的信息控制访问所述网页的处理。

(21)如(19)至(20)中任一项所述的信息处理系统，其中识别的信息与所述网页的登录信息相对应。

(22)如(1)至(21)中任一项所述的信息处理系统，其中所述信息处理系统是移动电话并且所述一个或多个处理单元是所述移动电话中的处理器。

(23)如(1)至(22)中任一项所述的信息处理系统，其中所述信息处理系统包括客户机和服务器。

(24)如(1)至(23)中任一项所述的信息处理系统，其中所述客户机包括:所述图像拾取单元；以及将所述图像发送至所述服务器的第一通信接口；并且所述服务器包括:从所述客户机接收所述图像的第二通信接口；所述一个或多个处理单元中的至少一个，该至少一个处理单元从存储器获取所述一个或多个模板，将所述图像与所述一个或多个模板进行比较，并且基于所述比较控制所述第二通信接口将所述结果输出至所述客户机。

(25)一种由信息处理系统执行的信息处理方法，所述方法包括：获取由图像拾取单元捕捉的图像；获取各自包括一个或多个字段的一个或多个模板；将所述图像与所述一个或多个模板相比较；以及基于所述比较输出结果，所述结果指示对所述一个或多个模板的一个或多个字段中每个字段的识别是否成功。

(26)一种包括计算机程序指令的非暂态计算机可读介质，所述计算机程序指令在由信息处理系统执行时使得所述信息处理系统执行一种方法，所述方法包括：获取由图像拾取单元捕捉的图像；获取各自包括一个或多个字段的一个或多个模板；将所述图像与所述一个或多个模板相比较；以及基于所述比较输出结果，所述结果指示对所述一个或多个模板的一个或多个字段中每个字段的识别是否成功。

参考标记列表

100 图像处理装置

120 图像获取单元

130 模板获取单元

140 模板匹配单元

150 识别单元

160 显示控制单元

170 信息获取单元

T1,T2,T3 模板

Claims

1.一种信息处理系统，包括：

一个或多个处理单元，用于：

获取由图像拾取单元捕捉的图像；

获取各自包括一个或多个字段的一个或多个模板；

将所述图像与所述一个或多个模板相比较；以及

基于所述比较输出结果，所述结果指示对所述一个或多个模板的一个或多个字段中每个字段的识别是否成功。

2.如权利要求1所述的信息处理系统，其中

所述图像包括对象并且所述一个或多个处理单元识别所述对象的结构。

3.如权利要求2所述的信息处理系统，其中

所述一个或多个处理单元通过检测在所述对象中包括的一个或多个字段来识别所述对象的结构。

4.如权利要求1所述的信息处理系统，其中

所述一个或多个处理单元从所述图像提取边缘。

5.如权利要求4所述的信息处理系统，其中

所述一个或多个处理单元通过确定从所述图像提取的边缘与所述一个或多个模板中包括的字段的框架之间的匹配程度而将所述图像与所述一个或多个模板进行比较。

6.如权利要求4所述的信息处理系统，其中

所述一个或多个处理单元通过在改变所述一个或多个模板的位置的同时确定从所述图像提取的边缘与所述一个或多个模板中包括的字段的框架之间的匹配程度而将所述图像与所述一个或多个模板进行比较。

7.如权利要求4所述的信息处理系统，其中

所述一个或多个处理单元通过在改变所述一个或多个模板的姿势的同时确定从所述图像提取的边缘与所述一个或多个模板中包括的字段的框架之间的匹配程度而将所述图像与所述一个或多个模板进行比较。

8.如权利要求1所述的信息处理系统，其中

所述一个或多个处理单元从所述图像中识别与匹配模板中包括的至少一个字段相关联的信息。

9.如权利要求8所述的信息处理系统，其中

所述至少一个字段是基于识别所述匹配模板而选择的字段。

10.如权利要求1所述的信息处理系统，其中

所述一个或多个处理单元通过对所述图像的与匹配模板中包括的至少一个字段相关联的部分执行光学字符识别（OCR）来从所述图像中识别与所述至少一个字段相关联的信息。

11.如权利要求1所述的信息处理系统，其中

所述一个或多个处理单元通过将所述图像的与匹配模板中包括的至少一个字段相关联的部分与存储的图像信息进行匹配来从所述图像中识别与所述至少一个字段相关联的信息。

12.如权利要求1所述的信息处理系统，其中

与所述至少一个字段相关联的图像是面部图像，并且

所述面部图像与存储的面部图像信息匹配。

13.如权利要求8所述的信息处理系统，其中

所述一个或多个处理单元控制显示器以在所述图像上叠加所识别的信息。

14.如权利要求1所述的信息处理系统，其中

所述一个或多个处理单元基于所述比较的结果生成用于指导所述图像拾取单元的用户调整所述图像拾取单元的辅助信息。

15.如权利要求14所述的信息处理系统，其中

所述辅助信息指示用户改变所述图像拾取单元的朝向。

16.如权利要求14所述的信息处理系统，其中

所述辅助信息指示用户改变所述图像拾取单元的位置和设置中的至少一种以改变由所述图像拾取单元所捕捉的图像的大小。

17.如权利要求1所述的信息处理系统，其中

基于所述比较输出的结果包括控制显示器以将识别成功的一个或多个字段与识别没有成功的一个或多个字段不同地显示。

18.如权利要求1所述的信息处理系统，其中

捕捉到的图像和所述一个或多个模板与网页相对应。

19.如权利要求18所述的信息处理系统，其中

所述一个或多个处理单元从所述图像中识别与对应于所述网页的匹配模板中包括的至少一个字段相关联的信息。

20.如权利要求19所述的信息处理系统，其中

所述一个或多个处理单元基于识别的信息控制访问所述网页的处理。

21.如权利要求19所述的信息处理系统，其中

识别的信息与所述网页的登录信息相对应。

22.如权利要求1所述的信息处理系统，其中

所述信息处理系统是移动电话并且所述一个或多个处理单元是所述移动电话中的处理器。

23.如权利要求1所述的信息处理系统，其中

所述信息处理系统包括客户机和服务器。

24.如权利要求23所述的信息处理系统，其中

所述客户机包括

所述图像拾取单元；以及

将所述图像发送至所述服务器的第一通信接口；并且

所述服务器包括

从所述客户机接收所述图像的第二通信接口；

所述一个或多个处理单元中的至少一个，该至少一个处理单元从存储器获取所述一个或多个模板，将所述图像与所述一个或多个模板进行比较，并且基于所述比较控制所述第二通信接口将所述结果输出至所述客户机。

25.一种由信息处理系统执行的信息处理方法，所述方法包括：

获取由图像拾取单元捕捉的图像；

获取各自包括一个或多个字段的一个或多个模板；

将所述图像与所述一个或多个模板相比较；以及

26.一种包括计算机程序指令的非暂态计算机可读介质，所述计算机程序指令在由信息处理系统执行时使得所述信息处理系统执行一种方法，所述方法包括：

获取由图像拾取单元捕捉的图像；

获取各自包括一个或多个字段的一个或多个模板；

将所述图像与所述一个或多个模板相比较；以及