CN104036476A

CN104036476A - 用于提供增强现实的方法以及便携式终端

Info

Publication number: CN104036476A
Application number: CN201410086525.1A
Authority: CN
Inventors: 曹益焕
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-03-08
Filing date: 2014-03-10
Publication date: 2014-09-10
Also published as: US20140253592A1; EP2775424A2; EP2775424A3; KR20140110584A

Abstract

提供一种用于提供增强现实的方法以及便携式终端。所述方法包括：获得图像；根据被摄体的类型顺序地设置图像的候选区域；从候选区域检测被摄体中的至少一个；通过将虚拟对象映射到与在图像中检测到的被摄体的位置相应的位置来创建合成图像；向用户显示合成图像。

Description

用于提供增强现实的方法以及便携式终端

技术领域

本公开涉及增强现实（AR）。更具体地讲，本公开涉及一种用于在三维（3D）空间中通过相机同时识别各种被摄体，并实时跟踪识别的被摄体的3D相机位姿跟踪方法。

背景技术

增强现实（AR）是将由用户看到的真实世界与包括附加信息的虚拟世界合成并显示一个合成图像的虚拟现实。利用虚拟世界补充真实世界的AR使用通过计算机图形学创建的虚拟环境。计算机图形学附加地提供真实环境所必需的信息。AR技术通过将3D虚拟图像与由用户看到的真实图像重叠来将真实环境和虚拟屏幕显示为一个屏幕，从而允许获得关于真实环境的附加信息。

一般而言，为了基于通过相机输入的图像来识别对象，使用与对象的类型相应的识别算法来识别在图像中的对象，并且使用跟踪算法来跟踪对象的3D运动。跟踪对象的3D运动作为用于AR技术的重要且基本的技术，从数学上指定真实相机查看真实对象的方向以允许虚拟内容的匹配。在没有精确3D跟踪的情况下，虚拟内容无法被精确匹配，使用户难以应对并因此丧失作为AR的价值。

根据现有技术的AR提供方法，一个识别引擎仅识别特定对象（面部、字符等），每个识别引擎具有其独立的识别和跟踪算法。

此外，在现有技术的AR提供方法中，针对附加对象的识别需要开发识别算法和跟踪算法二者，并且针对附加对象的附加识别引擎不得不并列地连接到现有识别引擎。另外，虽然一些对象（诸如字符）可被识别，但是难以跟踪。因此，需要一种用于在3D空间中通过相机同时识别各种被摄体并实时跟踪识别的被摄体的改进的设备和方法。

以上信息仅被提供为背景信息，用于帮助理解本公开。关于任何上述内容是否可用作对于本公开的现有技术，尚未确定且没有断言。

发明内容

本公开的各方面在于至少解决上述问题和/或缺点，并至少提供下述优点。

本公开的另一方面在于提供一种用于提高开发的效率的方法，其中，对象识别引擎分别具有插入式结构，以按照手动方式或自动方式有组织地运行，并且，利用三维（3D）场景跟踪来一般化对象的跟踪，使得针对添加的对象仅需要开发识别算法。

通过下述各种实施例，可理解将在本公开中提供的其它目的。

根据本公开的一方面，提供一种用于提供增强现实（AR）的方法。所述方法包括：获得图像；根据被摄体的类型顺序地设置图像的候选区域；从候选区域检测被摄体中的至少一个；通过将虚拟对象映射到与在图像中检测到的被摄体的位置相应的位置来创建合成图像；向用户显示合成图像。

根据本公开的另一方面，提供一种用于提供AR的便携式终端。所述便携式终端包括：相机模块，被配置为用于输出图像；控制器，被配置为用于根据被摄体的类型顺序地设置图像的候选区域，从候选区域检测被摄体中的至少一个，通过将虚拟对象映射到与在图像中检测到的被摄体的位置相应的位置来创建合成图像；显示单元，被配置为用于向用户显示合成图像。

从以下结合附图公开本公开的各种实施例的详细描述中，本公开的其它方面、优点和突出特征将对本领域普通技术人员而言变得清楚。

附图说明

从以下结合附图的详细描述中，本公开的特定实施例的以上和其它方面、特征和优点将会更清楚，其中：

图1是根据本公开的实施例的便携式终端的示意性框图；

图2是根据本公开的实施例的便携式终端的前透视图；

图3是根据本公开的实施例的便携式终端的后透视图；

图4示出根据本公开的实施例的用于提供增强现实（AR）的便携式终端的主要组件；

图5示出根据本公开的实施例的识别引擎；

图6是根据本公开的实施例的用于提供AR的方法的流程图；

图7是根据本公开的实施例的用于粗略识别的方法的流程图；

图8A、图8B、图9A和图9B是根据本公开的实施例的用于描述粗略识别和精细识别的示图；

图10是根据本公开的实施例的用于跟踪的方法的流程图；

图11A和图11B是根据本公开的实施例的用于描述全局相机位姿的示图；

图12A、图12B、图13A和图13B是根据本公开的实施例的用于描述用于估计全局相机位姿和局部场景位姿的方法的示图；

图14A、图14B、图15A和图15B是根据本公开的实施例的用于描述使用跟踪信息的图像合成的示图。

贯穿附图，同样的附图标号将被理解为指示同样的部分、组件和结构。

具体实施方式

参照附图的以下描述被提供以用于帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。虽然以下描述包括各种具体细节以帮助理解，但是这些具体细节将仅被视为仅仅是示例性的。因此，本领域普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可进行在此描述的各种实施例的各种改变和修改。另外，为了清晰和简明，可省略公知功能和构造的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域技术人员应清楚，提供本公开的各种实施例的以下描述仅用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

将理解，单数形式包括复数指示物，除非上下文清楚地指出并非如此。因此，例如，参照“组件表面”包括参照一个或多个这样的表面。

虽然本公开允许各种改变和实施例，但是特定实施例将在附图中被示出并在下文中描述。然而，本公开不限于描述的实施例并且应被理解为包括在本公开的精神和范围内包括的任何和所有的改变、等同物和替换。

虽然序数（诸如“第一”、“第二”等）将被用于描述各种组件，但是这些组件不受所述术语限制。序数词仅被用于将一个组件与另一组件区别。例如，在不脱离本发明构思的教导的情况下，第一组件可被称为第二组件，同样地，第二组件也可被称为第一组件。在此使用的术语“和/或”包括一个或多个关联的列出的项目的任何及全部组合。

这里使用的术语仅仅是为了描述各种实施例而并非意在限制。如这里所使用的情况，单数形式意在也包括复数形式，除非上下文清楚地另有指示。还将理解：当在本公开中使用时，术语“包括”和/或“具有”指定存在声明的特征、号码、步骤、操作、组件、元件或上述项的组合，但是并不排除存在或添加附加的特征、号码、步骤、操作、组件、元件或上述项的组合。

在此使用的术语（包括技术术语和科学术语）与本领域技术人员通常理解的术语具有相同含义，只要所述术语未被不同地定义。应理解：在通常使用的词典中定义的术语具有与在现有技术中的术语的含义一致的含义。只要所述术语未被明显地定义，它们不被理想地或过度地分析为正式含义。

在本公开中，终端可以是包括触摸屏的任意装置，终端可被称为便携式终端、移动终端、通信终端、便携式通信终端或便携式移动终端。

例如，终端可以是智能电话、蜂窝电话、游戏控制台、电视机（TV）、显示器、车辆机头单元（vehicle head unit）、笔记本计算机、膝上型计算机、平板计算机、个人媒体播放器（PMP）、个人数字助理（PDA）等。可利用具有无线通信功能的袖珍型便携式通信终端来实施终端。终端也可以是柔性装置或柔性显示器。

终端的典型结构与蜂窝电话相关联，可从终端的典型结构中省略或改变一些组件。

图1是根据本公开的实施例的便携式终端的示意性框图。

参照图1，可通过使用通信模块120、连接器165和耳机连接插孔167中的至少一个将便携式终端100与外部电子装置（未示出）连接。电子装置可包括可从便携式终端100中移除且可通过有线方式与便携式终端100连接的各种装置（诸如，例如，耳机、外部扬声器、通用串行总线（USB）存储器、充电装置、支架/基座、数字多媒体广播（DMB）天线、移动支付相关装置、健康管理装置（血压监视器等）、游戏控制台、车辆导航装置等）中的一个。电子装置可包括可无线连接的蓝牙通信装置、近场通信（NFC）装置、WiFi直连通信装置、无线接入点（AP）。可通过有线方式或无线方式将便携式终端100与另一便携式终端或电子装置（诸如，例如，蜂窝电话、智能电话、平板个人计算机（PC）、台式PC、服务器等）连接。

参照图1，便携式终端100包括至少一个触摸屏190和至少一个触摸屏控制器195。便携式终端100还包括控制器110、通信模块120、多媒体模块140、相机模块150、输入/输出模块160、传感器模块170、存储单元175、供电单元180。

通信模块120包括移动通信模块121、子通信模块130和广播通信模块141。

子通信模块130包括无线局域网（WLAN）模块131和短距离通信模块132中的至少一个。多媒体模块140包括音频回放模块142和视频回放模块143中的至少一个。相机模块150包括第一相机151和第二相机152。此外，取决于便携式终端100的主要用途，根据本公开的便携式终端100的相机模块150包括以下项中的至少一个：用于第一相机151和第二相机120的放大/缩小操作的镜头筒单元155、用于控制镜头筒单元155的运动以进行镜头筒单元155的放大/缩小操作的电机154、用于提供用于拍摄的光源的闪光灯153。输入/输出模块160包括至少一个按钮161、麦克风162、扬声器163、振动元件164、连接器165和键区166。

控制器110包括：只读存储器（ROM）112，其中存储有用于控制便携式终端100的控制程序；随机存取存储器（RAM）113，存储从便携式终端100输入的信号或数据，或者被用作针对在便携式终端100中执行的任务的存储器区域。中央处理单元（CPU）111可包括单核处理器、双核处理器、三核处理器或四核处理器。CPU111、ROM112和RAM113可通过内部总线相互连接。

控制器110控制通信模块120、多媒体模块140、相机模块150、输入/输出模块160、传感器模块170、存储单元175、供电单元180、触摸屏190和触摸屏控制器195。

控制器100感测当可触摸的用户输入部件（诸如输入单元168、用户手指等）触摸在触摸屏190上显示的多个对象或项目中的一个、靠近对象或被置于接近对象时产生的用户输入。控制器110还识别与在触摸屏190上感测到用户输入的位置相应的对象。通过触摸屏190产生的用户输入包括直接触摸输入和悬停输入之一，其中，直接触摸输入用于直接触摸对象，悬停输入作为在预设识别距离内靠近对象而不直接触摸对象的间接触摸输入。例如，当输入单元168被置于接近触摸屏190时，可选择紧位于输入单元168之下的对象。在本公开中，用户输入可包括通过相机模块150产生的手势输入、通过至少一个按钮161或键区166产生的开关/按钮输入、通过麦克风162产生的语音输入以及通过触摸屏190产生的用户输入。

对象或项目（或功能项目）被显示在便携式终端100的触摸屏190上，并且包括以下项中的至少一个，例如，应用、菜单、文档、微件、图片、运动图像、电子邮件、短消息服务（SMS）消息、多媒体消息服务（MMS）消息。使用用户输入部件，对象可被选择、执行、删除、取消、存储、改变等。项目可被用作包括按钮、图标（或快捷方式图标）、缩略图图像的概念或者包括在便携式终端100中的至少一个对象的文件夹。可按照图像、文本等形式来呈现项目。

快捷方式图标是在便携式终端100的触摸屏190上显示的用于应用、呼叫、联系人号码、菜单等的快速执行的图像。在输入用于执行快捷方式图标的命令或选择时，执行相应应用。

当输入单元168靠近触摸屏190或被置于接近触摸屏190时，控制器110感测用户输入事件，诸如悬停事件。

在产生针对特定项目或方式的用户输入事件时，控制器110执行与产生的用户输入事件相应的程序操作。

控制器110可将控制信号输出到输入单元168或振动元件164。控制信号可包括关于振动模式的信息。输入单元168或振动元件164产生与振动模式相应的振动。关于振动模式的信息可指示振动模式或与振动模式相应的标识符。控制信号可仅包括振动产生请求。

便携式终端100可包括移动通信模块121、WLAN模块131和短距离通信模块132中的至少一个。

移动通信模块121可在控制器110的控制下通过使用一个或多个天线（未示出）来促进在便携式终端100与外部装置之间的连接。移动通信模块121与蜂窝电话（未示出）、智能电话（未示出）、平板PC或具有被输入到便携式终端100的电话号码的另一电子装置（未示出）发送/接收用于语音呼叫、视频呼叫、文本消息（即，SMS）和/或多媒体消息（即，MMS）的无线信号。

子通信模块130包括WLAN模块131和短距离通信单元132中的至少一个。可选地，子通信模块130可包括WLAN模块131或短距离通信单元132或者WLAN模块131和短距离通信单元132二者。

WLAN模块131可在控制器110的控制下在安装有无线AP（未示出）的地方连接到互联网。WLAN模块131支持电气和电子工程师协会（IEEE）的无线LAN标准IEEE802.11x。短距离通信模块132可在控制器110的控制下在便携式终端100与外部电子装置之间无线地执行短距离通信。短距离通信可包括蓝牙、红外线数据协会（IrDA）、WiFi直连通信、NFC通信等。

通过子通信模块130，控制器110可将针对振动模式的控制信号发送到输入单元168。

广播通信模块141在控制器110的控制下经由广播通信天线（未示出）接收从广播站（未示出）发送的广播信号（例如，TV广播信号、无线电广播信号或数据广播信号）和广播附加信息（例如，电子节目指南（EPG）或电子服务指南（ESG））。

多媒体模块140包括音频回放模块142或视频回放模块143或者音频回放模块142和视频回放模块143二者。音频回放模块142可在控制器110的控制下播放在存储单元175中存储的或接收到的数字音频文件（例如，具有文件扩展名（诸如“mp3”、“wma”、“ogg”或“wav”）的文件。视频回放模块143可在控制器110的控制下播放存储的或接收到的数字视频文件（例如，具有文件扩展名（诸如“mpeg”、“mpg”、“mp4”、“avi”、“mov”或“mkv”的文件）。

多媒体模块140可被集成到控制器110。

相机模块150包括在控制器110的控制下捕捉静止图像或视频图像的第一相机151和第二相机152。相机模块150还包括用于执行针对拍摄的放大/缩小操作的镜头筒单元155、用于控制镜头筒单元155的运动的电机154和用于提供拍摄所必需的辅助光源的闪光灯153。第一相机151可被置于便携式终端100的前表面，第二相机152可被置于便携式终端100的后表面。

第一相机151和第二相机152均包括镜头系统、图像传感器等。第一相机151和第二相机152将通过镜头系统（输入或捕捉）的光信号转换为电图像信号，并将电图像信号输出到控制器110。用户可通过第一相机151和第二相机152捕捉运动图像或静止图像。

输入/输出模块160包括至少一个按钮161、麦克风162、扬声器163、振动元件164、连接器165、键区166、耳机连接插孔167和输入单元168。然而，应注意到，输入/输出模块160不限于这些示例，可提供光标控制（诸如，例如，鼠标、轨迹球、操纵杆或光标方向键）以控制在触摸屏190上的光标移动。

按钮161可形成在便携式终端100的外壳（或壳体）的前表面、侧表面和后表面中的至少一个上，并且可包括电源/锁定按钮、音量按钮、菜单按钮、主屏幕按钮、回退按钮、搜索按钮等中的至少一个。

麦克风162在控制器110的控制下接收语音或其它声音，并产生相应电信号。

扬声器163可在控制器110的控制下将与各种信号或数据（例如，无线数据、广播数据、数字音频数据、数字视频数据等）相应的声音输出。扬声器163可输出与由便携式终端100执行的功能相应的声音（例如，与电话呼叫相应的按钮操作声音、回铃音或对方用户的语音）。一个或多个扬声器163可形成在便携式终端100的外壳的一个或多个适当位置中。

振动元件164在控制器110的控制下将电信号转换为机械振动。例如，在便携式终端100中，在振动模式下，如果接收到来自另一装置（未示出）的语音呼叫或视频呼叫，则振动元件164进行操作。一个或多个振动元件164可被布置在便携式终端100的外壳中。振动元件164可响应于通过触摸屏190产生的用户输入来进行操作。

连接器165可被用作用于将便携式终端100与外部装置（未示出）或电源（未示出）连接的接口。在控制器110的控制下，通过连接到连接器165的有线电缆，存储在便携式终端100的存储单元175中的数据可被发送到外部电子装置，或可从外部电子装置接收数据。此外，便携式终端100可通过连接到连接器165的有线电缆从电源接收电力，或可通过使用电源为电池（未示出）充电。

键区166从用户接收针对便携式终端100的控制的键输入。键区166包括在便携式终端100中形成的物理键区（未示出）或在触摸屏190上显示的虚拟键区（未示出）。根据便携式终端100的性能或结构可排除在移动便携式终端100中形成的物理键区（未示出）。

耳机（未示出）可被插入到耳机连接插孔167中，以被连接到便携式终端100。

输入单元168可被插入到便携式终端100以用于保管，并且当被使用时，输入单元168可从便携式终端100取出或分离。在插入有输入单元168的便携式终端100的内侧的区域中，布置附接/拆卸识别开关169以向控制器110提供与输入单元168的附接或拆卸相应的信号。附接/拆卸识别开关169可被配置为用于当安装输入单元168时直接或间接地接触输入单元168。因此，附接/分离识别开关169基于其是否接触输入单元168来产生与输入单元168的附接或分离相应的信号（即，用于指示输入单元168的附接或分离的信号）并将信号输出到控制器110。

传感器模块170包括用于检测便携式终端100的状态的至少一个传感器。例如，传感器模块170可包括以下项中的至少一个：用于检测用户相对于便携式终端100的接近度的接近传感器、用于检测便携式终端100周围的光量的照度传感器（未示出）、用于检测便携式终端100的操作（例如，便携式终端100的旋转或施加到便携式终端100的加速度或振动）的运动传感器（未示出）、用于通过使用地球的磁场来检测指南针的指向的地磁传感器（未示出）、用于检测重力的作用方向的重力传感器、用于测量大气压以检测高度的高度计、全球定位系统（GPS）模块157等。

GPS模块157从在地球轨道中的多个GPS卫星（未示出）接收电波并通过使用从GPS卫星（未示出）到便携式终端100的到达时间来计算便携式终端100的位置。

存储单元175在控制器110的控制下存储与通信模块120、多媒体模块140、输入/输出模块160、传感器模块170或触摸屏190的操作相应地被输入/输出的信号或数据。存储单元175还可存储针对便携式终端100和/或控制器110的控制的控制程序以及应用。

术语“存储单元”包括存储单元175、在控制器110中的ROM112和RAM113，或在便携式终端100中安装的存储卡（未示出）（例如，安全数字（SD）卡、记忆棒等）。存储单元175可包括非易失性存储器、易失性存储器、硬盘驱动器（HDD）、固态驱动器（SSD）等。

存储单元175还可存储各种功能的应用（诸如导航、视频通信、游戏、基于时间的闹铃应用等）、用于提供与应用相关的图形用户界面（GUI）的图像、用户信息、文档、数据库或与用于处理触摸输入的方法相关的数据、背景图像（例如，菜单屏幕、待机屏幕等）、驱动便携式终端100所必需的操作程序、由相机模块150捕捉的图像等。

存储单元175可存储与用于提供增强现实（AR）的方法相关联的数据。

存储单元175是诸如，例如，非暂时性计算机可读介质的机器。术语“机器可读介质”包括用于向机器提供数据以允许机器执行特定功能的介质。存储单元175可包括非易失性介质或易失性介质。这样的介质需要是有形类型的介质，使得可通过读取命令的机器的物理工具来检测在介质中存储的命令。

机器可读介质可包括但不限于以下项中的至少一个：软盘、柔性盘（flexible disk）、硬盘、磁带、压缩盘只读存储器（CD-ROM）、光盘、穿孔卡片、纸带、随机存取存储器（RAM）、可编程只读存储器（PROM）、可擦除PROM（EPROM）、快闪EPROM等。

供电单元180在控制器110的控制下向布置在便携式终端100的外壳中的一个或多个电池供电。一个或多个电池向便携式终端100供电。供电单元180还可将通过与连接器165连接的有线电缆从外部电源输入的电力供应给便携式终端100。供电单元180还可将使用无线充电技术从外部电源无线输入的电力供应给便携式终端100。

便携式终端100包括向用户提供与各种服务（例如，呼叫、数据传输、广播、图片拍摄）相应的用户图形界面。

触摸屏190将与针对用户图形界面的至少一个输入相应的模拟信号输出到触摸屏控制器195。

触摸屏190接收使用用户身体（例如，包括拇指的手指）或输入单元168（例如，触控笔或电子笔）的至少一个用户输入。

触摸屏190还接收一个触摸的连续移动（即，拖动输入）。触摸屏190将与接收到的触摸的连续移动相应的模拟信号输出到触摸屏控制器195。

在本公开中，触摸还可包括在没有与触摸屏190进行直接接触的情况下可检测到用户输入部件的非接触触摸（例如，当用户输入部件位于，例如，1cm的距离内时）。触摸还可包括在触摸屏190与手指或输入单元168之间的直接接触。可根据便携式终端100的性能或结构而改变与触摸屏190之间的距离或间隔，其中，在所述距离或间隔内，可检测用户输入部件。作为示例，为了分开检测基于与用户输入部件的接触的直接触摸事件和间接触摸事件（即，悬停事件），触摸屏190可被配置为用于针对直接触摸事件和悬停事件输出不同值（例如，模拟电压值或电流值）。

例如，触摸屏190可被实施为电阻型、电容型、红外型、声波型或前述类型的组合等。

在实施例中，触摸屏190可包括能够感测触摸、手指的靠近或输入单元168的至少两个触摸面板以接收由手指或输入单元168产生的输入。所述至少两个触摸面板向触摸屏控制器195提供不同输出值。因此，触摸屏控制器195不同地识别从所述至少两个触摸屏面板输入的值，以识别来自触摸屏190的输入是否是由手指或由输入单元168产生的输入。

触摸屏控制器195将从触摸屏190接收的模拟信号转换为数字信号，并将数字信号发送到控制器110。控制器110通过使用从触摸屏控制器195接收的数字信号来控制触摸屏190。例如，响应于直接触摸事件或悬停事件，控制器110可控制在触摸屏190上显示的快键图标（未示出）被选择或被执行。触摸屏控制器195可被包括在控制器110中。

通过检测通过触摸屏190输出的值（例如，电流值），触摸屏控制器195识别用户输入位置以及悬停间隔或悬停距离，并将识别的距离转换为其随后发送到控制器110的数字信号（例如，Z坐标）。触摸屏控制器195还可通过检测通过触摸屏190输出的值来检测由用户输入部件施加到触摸屏190的压力，将检测到的压力转换为数字信号并将数字信号提供给控制器110。

图2是根据本公开的实施例的便携式终端的前透视图，图3是根据本公开的实施例的便携式终端的后透视图。

参照图2和图3，触摸屏190被置于便携式终端100的前表面101的中部。触摸屏190可大到足以占据便携式终端100的前表面101的大部分。图2示出在触摸屏190上显示首要主屏幕的示例。首要主屏幕是当移动装置100被通电时在触摸屏190上显示的初始屏幕。当便携式终端100具有若干页面的不同主屏幕时，首要主屏幕可以是若干页面的主屏幕之中的第一主屏幕。可在主屏幕上显示用于执行被频繁使用的应用的快捷方式图标191-1、191-2和191-3、主菜单改变键191-4、时间、天气等。如果用户选择主菜单改变键191-4，则在触摸屏190上显示菜单屏幕。指示便携式终端100的状态（诸如电池充电状态、接收到的信号的强度、当前时间等）的状态栏192可被形成在触摸屏190的上部中。

在触摸屏190的下部，可布置主屏幕按钮161a、菜单按钮161b和回退按钮161c。

主屏幕按钮161a旨在将首要主屏幕显示在触摸屏190上。例如，当不同于首要主屏幕的任何主屏幕或菜单屏幕被显示在触摸屏190上时，可在主屏幕按钮161a被选择时在触摸屏190上显示首要主屏幕。如果在触摸屏190上的应用执行期间选择了主屏幕按钮161a，则可在触摸屏190上显示在图2中示出的首要主屏幕。主屏幕按钮161a可被用于将最近使用的应用或任务管理器显示在触摸屏190上。

菜单按钮161b提供可在触摸屏190上显示的连接菜单。例如，连接菜单可包括微件添加菜单、背景改变菜单、搜索菜单、编辑菜单、环境设置菜单等。

回退按钮161c可被用于显示紧在当前执行的屏幕之前被显示的屏幕或用于终止最近使用的应用。

第一相机151、照度传感器170a和接近传感器170b可被布置在便携式终端100的前表面101的边缘上。第二相机152、闪关灯153和扬声器163可被布置在便携式终端100的后表面103上。

电源/锁定按钮161d、包括音量提高按钮161f和音量降低按钮161g的音量按钮161e、用于广播接收的地面DMB天线141a以及一个或多个麦克风162可被布置在便携式终端100的侧表面102上。DMB天线141a可被固定到便携式终端100上或可从便携式终端100移除。

连接器165（其中形成有多个电极，并可按照有线方式与外部装置连接）可被形成在便携式终端100的下端侧表面中。可插入有耳机的耳机连接插孔167可被形成在便携式终端100的上端侧表面中。

输入单元168（其可通过被插入到便携式终端100而被存储，并可从便携式终端100中取出和分离以进行使用）可被安装/形成在便携式终端100的下端侧表面上。

本公开提供将虚拟对象与由相机模块150捕捉的真实图像和实时图像合成的AR。

控制器110控制便携式终端100的整体操作以及在便携式终端100中的其它组件以执行公开的用于提供AR的方法。

图4示出根据本公开的实施例的用于提供AR的便携式终端的主要组件。

参照图4，便携式终端100的组件包括相机模块150、传感器模块170、存储单元175、控制器110和触摸屏190。

相机模块150捕捉便携式终端100的周围环境的图像，并将捕捉的图像输出到控制器110。

传感器模块170将指示便携式终端100的朝向或移动的感测值输出到控制器110。

存储单元175包括：目标数据库210，存储关于作为识别目标的被摄体的数据或信息；AR数据库212，存储关于将与真实图像合成的虚拟对象的数据或信息。关于被摄体的数据可包括被摄体图像、被摄体图像的特征点（也称为“特征图像”或“特征图案（feature pattern）”）信息等。特征点可以是边缘、角点、图像图案或轮廓。关于虚拟对象的数据可包括图像、文本、运动图像、虚拟对象的位置信息、与被摄体的映射信息等。映射信息可包括指示虚拟对象将被映射到或被重叠到的被摄体的标识符、被摄体的名称等。

控制器110包括识别引擎220、跟踪引擎230和图像合成器240。控制器110基于由相机模块150捕捉的图像来识别被摄体。控制器110使用与被摄体的类型相应的识别算法来识别在输入图像中的被摄体，并使用跟踪算法来跟踪被摄体的三维（3D）运动。跟踪被摄体的3D运动对于AR是非常重要的基本技术，使得控制器110从数学上指定相机模块150实际查看真实被摄体的方向，并将虚拟对象（即，虚拟图像或虚拟内容）映射到被摄体。

控制器110通过使用算法（诸如尺度不变特征变换（SIFT）、加速鲁棒特征（SURF）等）从输入图像检测在目标数据库210中登记的被摄体，并将基于模板的匹配方法应用于检测到的被摄体以估计局部场景位姿或相机位姿。SIFT被公开在David G.Lowe的《Object recognition from localscale-invariant features》（1999）（《Proceedings of the InternationalConference on Computer Vision》，2，第1150-1157页，doi:10.1109/ICCV.1999.790410），SURF被公开在Bay,H、Tuytelaars,T和Gool,L.V的《SURF:Speeded Up Robust Features》（《Proceedings of theninth European Conference on Computer Vision,》，2006年5月）。使用基于模板的匹配方法估计局部场景位姿或相机位姿被公开在Daniel Wagner、Gerhard Reitmayr、Alessandro Mulloni、Tom Drummond和DieterSchmalstieg的《Real Time Detection and Tracking for Augmented Reality onMobile Phones》（《Visualization and Computer Graphics》，2009年8月）。控制器110还可基于在目标数据库210中存储的二维（2D）或3D被摄体信息从输入图像检测在目标数据库210中登记的被摄体，并估计局部场景位姿或相机位姿。

识别引擎220识别在输入图像中的被摄体。识别引擎220可参考目标数据库210以进行所述识别，并可从输入图像检测匹配到在目标数据库210中登记的被摄体的图像区域。取决于识别目标的类型，识别引擎220还可识别被摄体而不用参考目标数据库210，例如，识别引擎220可识别在输入图像中的边缘特征点和角点特征点，并识别由边缘特征点和角点特征点限定的平面被摄体（诸如，矩形、圆形或多边形）。

跟踪引擎230跟踪在连续捕捉的图像之中的识别的被摄体的位姿（即，3D位置和朝向）的改变。跟踪引擎230是一般化的3D场景跟踪引擎。被摄体的位姿的改变可由相机模块150的移动或当相机模块150被固定时实际被摄体的移动引起。跟踪引擎230将指示被摄体的位姿的跟踪信息输出到图像合成器240。

图像合成器240通过使用跟踪信息将虚拟对象映射或重叠到输入图像以创建合成图像。也就是说，图像合成器240将由相机模块150捕捉的真实图像与虚拟对象合成。虚拟对象可以是文本、图像、字符等。图像合成器240将合成图像输出到触摸屏190，其中，所述触摸屏190在屏幕上显示合成图像。

图5示出根据本公开的实施例的识别引擎。

参照图5，识别引擎220包括身体识别引擎310、2D对象识别引擎320和3D对象识别引擎330。也就是说，识别引擎220可被分割为与被摄体的类型相应的分离的识别引擎。

身体识别引擎310识别在输入图像中的身体的一部分（诸如手或脸）或整个身体。

2D对象识别引擎320识别在输入图像中的2D对象，诸如图片、海报、图书封面、地图、标记、光学字符阅读器（OCR）或快速响应（QR）代码。2D对象识别引擎320可被分割为与2D被摄体的类型相应的分离的识别引擎，诸如，2D图像识别引擎、2D标记识别引擎、OCR识别引擎和QR代码识别引擎。

3D对象识别引擎330识别在输入图像中的除了身体之外的对象，例如，3D被摄体，诸如鞋子、蜂窝电话、TV、画框等。身体识别引擎310可被集成到3D对象识别引擎330中，并且如同2D对象识别引擎320一样，3D对象识别引擎330可被分割为与3D被摄体的类型相应的分离的识别引擎。

身体识别引擎310、2D对象识别引擎320和3D对象识别引擎330包括粗略识别模块312、322、332以及精细识别模块314、324和334。

粗略识别模块312、322、332是用于确定在输入图像中是否存在相应引擎期望识别的被摄体并用于以低精确度高速扫描输入图像的模块。粗略识别模块312、322、332将在输入图像中发现将被识别的被摄体的概率高于阈值的区域掩蔽（mask）或设置为候选区域。精细识别模块314、324和334以高精确度低速检测在候选区域中包括的被摄体。

根据本公开的识别引擎220包括与识别目标的类型相应的各种分离的识别引擎，并且在插入式结构中，识别引擎310、320或330均被连接到识别引擎220以进行操作。

图6是根据本公开的实施例的用于提供AR的方法的流程图。

参照图6，用于提供AR的方法包括操作S110至S150。

操作S110是图像获得操作，其中，控制器110从相机模块150或存储单元175获得由相机模块150捕捉的图像。在图像获得之前，由相机模块150捕捉的图像可被存储在存储单元175中。

操作S120是粗略识别操作，其中，控制器110的识别引擎220将在输入图像中存在将被识别的被摄体的概率高于阈值的区域设置或掩蔽为候选区域。也就是说，识别引擎220根据将被识别的被摄体的类型顺序地设置或掩蔽输入图像的候选区域。掩蔽是指将候选区域的位置信息存储在存储单元175中，例如，位置信息可以是矩形候选区域的四个角点的坐标或矩形候选区域的两个对角角点的坐标。例如，识别引擎220在输入图像的整个区域中搜索与被摄体之中的第一类型的被摄体相似的第一图像区域，并在输入图像的整个区域中除了第一图像区域之外的区域中搜索与被摄体之中的第二类型的被摄体相似的第二图像区域。

图7是根据本公开的实施例的用于粗略识别的方法的流程图。

参照图7，粗略识别操作包括操作S210至操作S260。

操作S210是用于设置初始值的操作，其中，控制器110的识别引擎220初始化参数i以用于初步识别。识别引擎#1至#3分别与身体识别引擎310、2D对象识别引擎320和3D对象识别引擎330相应。

操作S220是用于执行粗略识别扫描的操作，其中，识别引擎i310、320或330针对在输入图像中的以0–0.5的概率而被掩蔽的区域或未被掩蔽区域（或具有0概率的区域）执行粗略识别扫描。粗略识别扫描是在输入图像中搜索与在目标数据库210中登记的被摄体相似的图像区域的处理。也就是说，粗略识别扫描从输入图像检测不会当然地被确定为与登记的被摄体相同但可能会是登记的被摄体的图像区域。

操作S230是用于确定是否检测到候选区域的操作，其中，识别引擎i310、320或330确定是否从输入图像检测到候选区域。掩蔽区域具有0-1的概率。具有小于0.5的概率的掩蔽区域是存在另一类型的被摄体的概率高且可由另一识别引擎扫描的被掩蔽的区域。候选区域i是被识别引擎i310、320或330掩蔽的区域。一旦检测到候选区域，则执行操作S240；否则，如果未检测到候选区域，则执行操作S260。

操作S240是掩蔽操作，其中，识别引擎i310、320或330设置针对候选区域i的概率。

操作S250是用于确定粗略识别是否已经完成的操作，其中，确定是否所有识别引擎#1至#3310、320、330都执行粗略识别扫描。也就是说，将参数i与识别引擎的数量k（在本示例中，3）进行比较，如果i等于k，则结束初步识别；否则，如果i不等于k，则执行操作S260。

操作S260是参数增加操作，其中，为了驱动下一个识别引擎，参数i被增加1。

返回参照图6，操作S130是精细识别操作，其中，由相应识别引擎精细地扫描每个候选区域。例如，如果候选区域2和候选区域3被检测到，则识别引擎#2320精细地扫描候选区域2并且识别引擎#3330精细地扫描候选区域3。识别引擎310、320和330检测包括在候选区域中的被摄体以及被摄体的局部场景位姿。

图8A、图8B、图9A和图9B是用于描述根据本公开的实施例的粗略识别和精细识别的示图。

参照图8A，示出在目标数据库210中登记的2D被摄体图像410和2D被摄体图像410的轮廓412。在当前示例中，2D被摄体图像410与第一盒盖相应。目标数据库210存储关于在2D被摄体图像410中的多个特征点的信息。特征点被用于将登记的2D被摄体与在输入图像中的图像区域匹配。所有特征点被用于精细识别，其中的一些特征点被用于粗略识别。在图8A中，作为登记的2D被摄体的第一盒盖的参考位姿411（即，位置和朝向）被显示为3D正交坐标系。

参照图8B，示出通过捕捉作为识别目标的盒盖获得的输入图像。输入图像包括桌子420以及在桌子420上放置的第一至第三盒盖430、440和450。

参照图9A，2D对象识别引擎320的粗略识别模块322基于包括2D被摄体图像410的轮廓412的2D被摄体图像410的特征点的数量将第一至第三盒盖430、440和450识别为候选区域。例如，被用于进行粗略识别的特征点的数量可被设置为6，粗略识别模块322可将其轮廓431和五个特征点432与2D被摄体图像410匹配的第一盒盖430掩蔽或识别为90%概率的第一候选区域。粗略识别模块322可将其轮廓441和三个特征点442与2D被摄体图像410匹配的第二盒盖440掩蔽或识别为50%概率的第二候选区域。粗略识别模块322可将其轮廓451和两个特征点452与2D被摄体图像410匹配的第三盒盖450掩蔽或识别为30%概率的第三候选区域。

参照图9B，2D对象识别引擎320的精细识别模块324基于包括2D被摄体图像410的轮廓412的2D被摄体图像410的所有特征点来精细地扫描第一至第三候选区域。根据精细扫描，精细识别模块324从第一候选区域检测与登记的2D被摄体图像410匹配的第一盒盖430以及第一盒盖430的局部场景位姿433。图9B利用3D正交坐标系示出第一盒盖430的局部场景位姿433（即，位置和朝向）。为了便于理解，虽然3D正交坐标系被显示为与第一盒盖430隔开，但是3D正交坐标系的位置被设置为与第一盒盖430的位置相同。

在当前示例中，将2D被摄体的识别用作示例，并且按照与当前示例的方式相似的方式来识别3D被摄体。针对3D被摄体，可在目标数据库210中登记3D被摄体图像或3D被摄体模型。

返回参照图6，操作S140是跟踪操作，其中，跟踪引擎230跟踪在连续捕捉的图像之中由识别引擎220识别的被摄体的位姿改变（例如，3D运动或移动）。

图10是根据本公开的实施例的用于跟踪的方法的流程图。

参照图10，跟踪操作包括操作S310至操作S330。

操作S310是估计全局相机位姿的操作，其中，跟踪引擎230基于第一全局相机位姿（或第一全局3D几何布置）估计当前输入图像（在下文中，第二输入图像）的全局相机位姿。由跟踪引擎230基于至少一个先前输入图像（在下文中，第一输入图像）来识别或确定第一全局相机位姿。跟踪引擎230可通过使用诸如并行跟踪与映射（PTAM））（被公开在Klein，G和Murray，D的《Parallel tracking and mapping for small AR workspaces》（2007年ISMAR论文集,第225-234页，2007年））的方法来估计全局相机位姿。

图11A和图11B是用于描述根据本公开的实施例的全局相机位姿的示图。

参照图11A，示出包括由识别引擎220识别的第一至第三被摄体510、520和530的第一输入图像540。在当前示例中，第一至第三被摄体510、520和530与不同肖像照片相应。

参照图11B，跟踪引擎230在与作为捕捉目标的真实空间相应的虚拟空间540a中识别或确定第一全局相机位姿541，即，指示相机模块150查看的第一至第三被摄体510a、520a和530a的第一3D位置（即，3D坐标）和/或第一局部位姿（即，3D位置和朝向）的第一全局3D几何布置。在虚拟空间540a上，可由相机模块150的位置和/或朝向来指示第一全局相机位姿541。

跟踪引擎230可将第一标识符、第二标识符和第三标识符（在本示例中的ID1、ID2和ID3）分别分配给第一被摄体510a、第二被摄体520a和第三被摄体530a。在图11B中，第一全局相机位姿541、第一被摄体510a的第一局部场景位姿511、第二被摄体520a的第一局部场景位姿521和第三被摄体530a的第一局部场景位姿531被表示为3D正交坐标系。第一全局相机位姿541以及各个第一局部场景位姿511、521或531可被表示为矩阵。

跟踪引擎230识别在当前第二输入图像中的被摄体相对于在先前第一输入图像中的被摄体的先前位置和/或先前朝向的位置改变和/或朝向改变，因此估计第二输入图像的第二全局相机位姿。

返回参照图10，操作S320是局部场景位姿估计操作，其中，跟踪引擎230基于第二全局相机位姿来估计第二输入图像的第二局部场景位姿。跟踪引擎230通过使用诸如PTAM的方法来估计局部场景位姿。

图12A、图12B、图13A和图13B是用于描述根据本公开的实施例的用于估计全局相机位姿和局部场景位姿的方法的示图。

参照图12A，用户处于展示第一至第三被摄体510b、520b和530b的空间540b中。参照图12B，用户通过便携式终端100的相机模块150拍摄第二被摄体520b的前面的照片，包括第一至第三被摄体510、520和530的第一输入图像540在便携式终端100的触摸屏190上被显示为实时预览图像。

用户旋转便携式终端100以拍摄第一被摄体510b的前面的照片。由于便携式终端100的旋转，相机模块150的查看方向从第一方向550改变为第二方向551。

参照图13A，在相机模块150的查看方向从第一方向550改变到第二方向551之后，包括得自于第一至第三被摄体的第一被摄体510c和第二被摄体520c的第二输入图像540c在便携式终端100的触摸屏190上被显示为实时预览图像。

参照图13B，跟踪引擎230在与作为拍摄目标的真实空间相应的虚拟空间540d中识别或确定第二全局相机位姿542，即，指示相机模块150查看的第一被摄体510d和第二被摄体520d的第二3D位置和/或第二局部场景位姿的第二全局3D几何布置。跟踪引擎230基于第一全局相机位姿541来识别或确定针对第二输入图像的第二全局相机位姿542。跟踪引擎230还基于第二全局相机位姿542估计第二局部场景位姿。

在图13B中，第二全局相机位姿542、第一被摄体510d的第二局部场景位姿512、第二被摄体520d的第二局部场景位姿522被分别表示为3D正交坐标系。第二全局相机位姿542以及各个第二局部场景位姿512和522也可被表示为矩阵。

返回参照图10，操作S330是用于修正估计的局部场景位姿的操作，其中，跟踪引擎230修正基于由识别引擎220识别的第二输入图像的局部场景位姿而估计的第二局部场景位姿512和522。可周期性地执行第二局部场景位姿512和522的修正或更新。

跟踪引擎230将指示第二输入图像的局部场景位姿的跟踪信息输出到图像合成器240，跟踪信息可以是与第二输入图像的局部场景位姿相应的跟踪位姿矩阵。

返回参照图6，操作S150是用于创建并显示合成图像的操作，其中，图像合成器240通过使用跟踪信息将虚拟对象映射或重叠到输入图像来创建合成图像。创建的合成图像被输出到触摸屏190，其中，所述触摸屏190向用户显示合成图像。

图14A、图14B、图15A和图15B是用于描述根据本公开的实施例的使用跟踪信息的图像合成的示图。

参照图14A，用户利用便携式终端100的相机模块150拍摄第二被摄体的前面的照片，包括第一被摄体510、第二被摄体520和第三被摄体530的第一输入图像540在便携式终端100的触摸屏190上被显示为实时预览图像。描述第一被摄体510、第二被摄体520和第三被摄体530的第一对象610、第二对象620和第三对象630被映射并显示在第一输入图像540中。

参照图14B，图像合成器240基于跟踪信息在与作为拍摄目标的真实空间相应的虚拟空间540a中识别第一被摄体510a、第二被摄体520a和第三被摄体530a的第一局部场景位姿511、521和531，并确定第一虚拟对象610a、第二虚拟对象620a和第三虚拟对象630a的第一位姿611、621和631（3D位置和朝向）以与第一局部场景位姿511、521和531相应。

如图12A和图12B所示，用户可旋转便携式终端100以拍摄第一被摄体的前面的照片。由于便携式终端100的旋转，相机模块150的查看方向从第一方向改变为第二方向。

参照图15A，在相机模块150的查看方向从第一方向改变为第二方向之后，包括得自于第一至第三被摄体的第一被摄体510c和第二被摄体520c的第二输入图像540c在便携式终端100的触摸屏190上被显示为实时预览图像。用于描述第一被摄体510c和第二被摄体520c的第一虚拟对象610b和第二虚拟对象620b还被映射并显示在第二输入图像540c中。

参照图15B，图像合成器240基于跟踪信息在与作为拍摄目标的真实空间相应的虚拟空间540d中识别第一被摄体510d和第二被摄体520d的第二局部场景位姿512和522，并确定第一虚拟对象610c和第二虚拟对象620c的第二位姿612和622（3D位置和朝向）以与第二局部场景位姿512和522相应。

第一虚拟对象和第二虚拟对象的位姿改变（即，在第一位姿611和621与第二位姿612和622之间的差异）可与第一被摄体和第二被摄体的位姿改变（即，在第一局部场景位姿511和521与第二局部场景位姿512和522之间的差异）相同或不同。

如在本公开的前述描述中所清楚的，即使针对难以利用单个识别引擎跟踪的文本图像，可通过使用整体3D图像信息来跟踪文本图像，并且通过开发并添加识别引擎，跟踪成为可能，使得可添加有效的引擎模块。

虽然在前述示例中触摸屏被用作用于显示屏幕的显示单元的典型示例，但是可使用普通显示单元（诸如不具有触摸感测功能的液晶显示器（LCD）、有机发光二极管（OLED）或LED）来取代触摸屏。

可看出：可利用硬件、软件或硬件和软件的组合来实施本公开的各种实施例。这样的任意软件无论是可擦除的还是可重新记录的，可被存储在易失性或非易失性存储器（诸如只读存储器（ROM））、存储器（诸如随机存取存储器（RAM）、存储器芯片、装置或集成电路）、光或磁可记录且机器（例如，计算机）可读存储介质（诸如压缩盘（CD）、数字通用盘（DVD）、磁盘或磁带）中。可看出：可由包括控制器和存储器的计算机或便携式终端来实施根据本公开的图像回放方法，存储器是适合用于存储包括用于实施本公开的各种实施例的指令的一个或多个程序的机器可读存储器介质的示例。因此，本公开包括包含用于实施在任意权利要求中要求保护的设备或方法的代码的程序和用于存储这样的程序的机器可读存储介质。所述程序可通过任意介质（诸如通过有线连接或无线连接传输的通信信号）被电子地传输，并且本公开适当地包括其等同物。

便携式终端可从按照有线方式或无线方式连接的程序提供装置接收程序并将其存储。程序提供装置可包括：存储器，用于存储包括用于指示便携式终端执行要求保护的用于提供AR的方法的指令的程序以及用于提供AR的方法所必需的信息；通信单元，用于与便携式终端执行有线通信或无线通信；控制器，用于应便携式终端的请求或自动地将相应程序发送到便携式终端。

虽然已经参照本公开的各种实施例示出并描述本公开，但是本领域技术人员将理解：在不脱离由权利要求及其等同物限定的本公开的范围的情况下，可在其中做出在形式和细节方面的各种改变。

Claims

1.一种用于提供增强现实（AR）的方法，所述方法包括：

获得图像；

根据被摄体的类型顺序地设置图像的候选区域；

从候选区域检测被摄体中的至少一个；

通过将虚拟对象映射到与在图像中检测到的被摄体的位置相应的位置来创建合成图像；以及

向用户显示合成图像。

2.如权利要求1所述的方法，其中，设置候选区域的步骤包括：

在图像中检测第一图像区域，作为第一候选区域，其中，第一图像区域被估计为在被摄体之中的第一类型的被摄体；以及

在图像中检测第二图像区域，作为第二候选区域，其中，第二图像区域被估计为在被摄体之中的不同于第一类型的被摄体的第二类型的被摄体。

3.如权利要求2所述的方法，其中，设置候选区域的步骤包括：

在图像中检测第三图像区域，作为第三候选区域，其中，第三图像区域被估计为在被摄体之中的不同于第一类型和第二类型的被摄体的第三类型的被摄体。

4.如权利要求2所述的方法，其中，第一类型的被摄体是二维（2D）被摄体，第二类型的被摄体是三维（3D）被摄体。

5.如权利要求2所述的方法，其中，针对第一候选区域和第二候选区域分别设置发现相应被摄体的概率。

6.如权利要求2所述的方法，其中，在图像的整个区域上搜索第一候选区域，在图像的整个区域中除了第一候选区域以外的区域中搜索第二候选区域。

7.如权利要求1所述的方法，其中，从候选区域检测被摄体中的至少一个的步骤包括：

检测被摄体中的所述至少一个的位姿。

8.如权利要求7所述的方法，还包括：在连续捕捉的图像之中跟踪检测到的被摄体的位姿改变。

9.如权利要求8所述的方法，还包括：根据跟踪的检测到的被摄体的位姿改变来改变虚拟对象的位姿。

10.如权利要求8所述的方法，其中，跟踪位姿改变的步骤包括：

估计检测到的被摄体的相机位姿；以及

基于相机位姿来估计被摄体的位姿。

11.如权利要求10所述的方法，还包括：

检测被摄体的位姿；以及

将估计的被摄体的位姿更新到检测到的被摄体的位姿。

12.一种用于提供增强现实（AR）的便携式终端，所述便携式终端包括：

相机模块，被配置为用于输出图像；

控制器，被配置为用于根据被摄体的类型顺序地设置图像的候选区域，从候选区域检测被摄体中的至少一个，通过将虚拟对象映射到与在图像中检测到的被摄体的位置相应的位置来创建合成图像；以及

显示单元，被配置为用于向用户显示合成图像。

13.如权利要求12所述的便携式终端，其中，控制器包括：

二维（2D）对象识别引擎，被配置为用于在图像中检测第一图像区域，作为第一候选区域，其中，第一图像区域被估计为在被摄体之中的第一类型的被摄体；以及

三维（3D）对象识别引擎，被配置为用于在图像中检测第二图像区域，作为第二候选区域，其中，第二图像区域被估计为在被摄体之中的不同于第一类型的被摄体的第二类型的被摄体。

14.如权利要求13所述的便携式终端，其中，控制器还包括：身体识别引擎，被配置为用于在图像中检测第三图像区域，作为第三候选区域，其中，第三图像区域被估计为在被摄体之中的不同于第一类型和第二类型的被摄体的第三类型的被摄体。

15.如权利要求13所述的便携式终端，其中，2D对象识别引擎和3D对象识别引擎分别具有插入式结构。

16.如权利要求12所述的便携式终端，其中，控制器包括：跟踪引擎，用于在连续捕捉的图像之中跟踪检测到的被摄体的位姿改变。

17.如权利要求16所述的便携式终端，其中，控制器还包括：图像合成器，用于根据跟踪的检测到的被摄体的位姿改变来改变虚拟对象的位姿。

18.如权利要求16所述的便携式终端，其中，跟踪引擎估计检测到的被摄体的相机位姿并基于相机位姿来估计被摄体的位姿。

19.如权利要求18所述的便携式终端，其中，跟踪引擎将估计的被摄体的位姿更新到检测到的被摄体的位姿。