CN114207671A

CN114207671A - 图像处理装置、图像处理方法和程序

Info

Publication number: CN114207671A
Application number: CN202080055852.4A
Authority: CN
Inventors: 后藤智彦; 青木秀宪; 荒井富士夫; 永野京二郎; 深泽辽; 藤泽春香
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-08-09
Filing date: 2020-07-07
Publication date: 2022-03-18
Also published as: US20220270363A1; EP4012663A1; EP4012663A4; JPWO2021029164A1; WO2021029164A1; KR20220044489A

Abstract

提供了根据要作为显示虚拟对象的区域的目标区域的真实对象类型来选择要显示的虚拟对象并且改变显示模式的装置和方法。该装置具有：对象识别单元，其执行用于识别真实世界中的真实对象的处理；以及内容显示控制单元，其生成其中真实对象和虚拟对象被叠加显示的增强现实(AR)图像。对象识别单元识别要作为显示虚拟对象的区域的目标区域中的真实对象，并且内容显示控制单元执行用于根据对象识别结果选择要显示的虚拟对象的处理以及用于改变显示模式的处理。

Description

图像处理装置、图像处理方法和程序

技术领域

本公开涉及图像处理装置、图像处理方法和程序。更具体地，本公开涉及生成和输出其中在可以实际观察到的真实对象上叠加显示诸如角色图像的虚拟内容的增强现实(AR)图像的图像处理装置、图像处理方法和程序。

背景技术

其中在真实空间中可以观察到的真实对象上或者真实对象和图像上叠加显示虚拟对象的图像被称为增强现实(AR)图像。

在使用AR图像的内容和游戏中使用的虚拟对象存在多种类型，并且例如经常使用行为像人类的虚拟对象，即角色。

通过使用例如戴在用户眼睛上的头戴式显示器(HMD)、诸如智能电话之类的移动终端等来显示AR图像。

通过观看AR图像，用户可以享受仿佛例如AR图像中显示的角色存在于真实世界中的感觉。

例如，在AR图像中显示角色的情况下，执行根据诸如游戏程序的内容再现程序的显示处理。

具体地，在满足程序中记录的角色输出条件的情况下，在程序中定义的过程中显示角色。

然而，当执行程序中定义的这种角色显示时，总是重复类似的处理，因此减少了乐趣。

同时，近年来，语义分割的研究和使用作为用于识别图像中的对象的技术得到了发展。语义分割是用于识别摄像装置捕获的图像中包括的各种对象(例如人、汽车、建筑物、道路、树木等)的类型的技术。

注意，例如，专利文献1(日本专利申请特许公开第2015-207291号)公开了语义分割。

引用列表

专利文献

专利文献1：日本专利申请特许公开第2015-207291号

发明内容

本发明要解决的问题

本公开提供了根据真实对象的类型控制要显示的角色的图像处理装置、图像处理方法和程序。

本公开的实施方式提供了通过诸如上述语义分割的对象识别处理来识别图像的背景对象并且根据识别结果来控制要显示的角色的图像处理装置、图像处理方法和程序。

问题的解决方案

本公开的第一方面在于

一种图像处理装置，包括：

对象识别单元，其执行对真实世界中的真实对象的识别处理；以及

内容显示控制单元，其生成其中真实对象和虚拟对象被叠加显示的增强现实(AR)图像，其中，

对象识别单元

执行识别虚拟对象的显示区域中的真实对象的对象识别处理，并且

内容显示控制单元

根据对象识别单元中识别的对象识别结果选择要显示的虚拟对象。

此外，本公开的第二方面在于

一种在图像处理装置中执行的图像处理方法，该方法包括：

由对象识别单元执行对象识别处理步骤，对象识别处理步骤执行对真实世界中的真实对象的识别处理；

由内容显示控制单元执行内容显示控制步骤，内容显示控制步骤生成其中真实对象和虚拟对象被叠加显示的增强现实(AR)图像，其中，

对象识别处理步骤

是执行识别虚拟对象的显示区域中的真实对象的对象识别处理的步骤，并且

内容显示控制步骤

执行根据对象识别处理步骤中识别的对象识别结果来选择要显示的虚拟对象的步骤。

此外，本公开的第三方面在于

一种用于使得在图像处理装置中执行图像处理的程序，该程序：

使对象识别单元执行对象识别处理步骤，对象识别处理步骤执行对真实世界中的真实对象的识别处理；

使内容显示控制单元执行内容显示控制步骤，内容显示控制步骤生成其中真实对象和虚拟对象被叠加显示的增强现实(AR)图像；

在对象识别处理步骤中，

使对象识别处理被执行，该对象识别处理识别虚拟对象的显示区域中的真实对象；并且

在内容显示控制步骤中，

使得如下步骤被执行，该步骤根据对象识别处理步骤中识别的对象识别结果来选择要显示的虚拟对象。

注意，本公开的程序是例如可以由以计算机可读形式提供的存储介质或通信介质提供给可以执行各种程序代码的计算机系统或信息处理装置的程序。通过以计算机可读形式提供这样的程序，根据信息处理装置或计算机系统上的程序来实现处理。

根据稍后描述的基于本公开的实施方式的详细描述和附图，本公开的另外的其他目的、特征和优点将变得明显。注意，在本说明书中，术语“系统”指的是多个装置的逻辑组配置，并且不限于各个配置的装置在同一外壳中的系统。

根据本公开的实施方式的配置，实现了根据要作为虚拟对象的显示区域的目标区域中的真实对象类型来执行对要显示的虚拟对象的选择或显示模式改变的装置和方法。

具体地，例如，包括：执行对真实世界中的真实对象的识别处理的对象识别单元；以及生成其中真实对象和虚拟对象被叠加显示的AR图像的内容显示控制单元。对象识别单元识别要作为虚拟对象的显示区域的目标区域中的真实对象，并且内容显示控制单元执行根据对象识别结果来选择要显示的虚拟对象的处理或者改变显示模式的处理。

通过该配置，实现了根据要作为虚拟对象的显示区域的目标区域中的真实对象类型来执行对要显示的虚拟对象的选择或者显示模式改变的装置和方法。

注意，在本说明书中描述的有利效果仅是示例，并且本技术的有利效果不限于这些效果并且可以包括附加效果。

附图说明

图1是说明本公开的图像处理装置的配置示例以及要执行的处理的图。

图2是说明由本公开的图像处理装置执行的处理的图。

图3是说明由本公开的图像处理装置执行的处理的图。

图4是说明由本公开的图像处理装置执行的处理的图。

图5是说明本公开的图像处理装置的配置示例以及要执行的处理的图。

图6是说明本公开的图像处理装置的配置示例以及要执行的处理的图。

图7是说明由本公开的图像处理装置执行的处理的图。

图8是说明由本公开的图像处理装置执行的处理的图。

图9是说明本公开的图像处理装置的配置示例的图。

图10是说明空间地图数据的数据配置示例的图。

图11是说明类别关联更新时间数据的数据配置示例的图。

图12是说明类别关联虚拟对象数据的数据配置示例的图。

图13是示出说明由本公开的图像处理装置执行的处理的序列的流程图的图。

图14是示出说明由本公开的图像处理装置执行的目标区域确定处理的序列的流程图的图。

图15是示出说明由本公开的图像处理装置执行的目标区域确定处理的序列的流程图的图。

图16是示出说明由本公开的图像处理装置执行的处理的序列的流程图的图。

图17是示出说明由本公开的图像处理装置执行的处理的序列的流程图的图。

图18是说明本公开的图像处理装置的硬件配置示例的图。

具体实施方式

在下文中，将参照附图详细描述本公开的图像处理装置、图像处理方法和程序。注意，将根据以下项目给出描述。

1.由本公开的图像处理装置执行的处理的概要

2.本公开的图像处理装置的配置示例

3.由本公开的图像处理装置执行的处理的序列

3-(1)由图像处理装置执行的基本处理序列

3-(2)在大致水平的表面中设置目标区域的设置区域的处理序列

3-(3)真实对象识别处理的更新序列

4.图像处理装置的硬件配置示例

5.本公开的配置的总结

[1.由本公开的图像处理装置执行的处理的概要]

首先，参照图1和随后的图，将描述由本公开的图像处理装置执行的处理的概要。

图1示出作为本公开的图像处理装置的示例的头戴式显示器(HMD)型透光型AR图像显示设备10。

用户佩戴头戴式显示器(HMD)型透光型AR图像显示设备10以覆盖用户的眼睛。

透光型AR图像显示设备10包括透光型显示单元(显示器)。透光型显示单元(显示器)由用户佩戴以设置在用户眼睛前方的位置处。

用户可以经由透光型AR图像显示设备10的透光型显示单元(显示器)原样观察外部真实对象。

此外，在透光型显示单元(显示器)上显示虚拟对象的虚拟对象图像，例如角色图像等。

用户可以经由透光型AR图像显示设备10一起观察外部真实对象和角色的虚拟对象图像等，并且能感觉到仿佛诸如角色的虚拟对象如同真实世界一样存在。

图1的右侧示出用户可以经由透光型AR图像显示设备10观察到的图像的示例。

在(a)观察图像示例1中，包括包含经由透光型AR图像显示设备10观察到的外部真实对象的透射观察图像21。在图像示例1中，没有显示虚拟对象。

另一方面，(b)观察图像示例2是其中将诸如角色图像的虚拟对象图像22与包括经由透光型AR图像显示设备10观察到的外部真实对象的透射观察图像21一起显示的图像示例。图像示例2是其中用户可以一起观察真实对象和虚拟对象的图像。

如上所述，其中虚拟对象被叠加显示在可以在真实空间中观察到的真实对象上或者真实对象和图像上的图像被称为增强现实(AR)图像。

本公开的图像处理装置是执行AR图像的显示处理的装置。

本公开的图像处理装置、例如图1所示的透光型AR图像显示设备10在AR图像显示中执行虚拟对象的显示控制。

由本公开的图像处理装置、例如图1所示的透光型AR图像显示设备10执行的具体处理例如为以下处理。

(a)通过应用执行自身位置估计和环境三维地图生成的同时定位和映射(SLAM)处理等，生成用户经由透光型AR图像显示设备10观察到的真实世界的三维地图的处理。

(b)通过诸如语义分割的对象识别处理来识别真实世界中包括的对象的处理。

(c)选择要显示的虚拟对象(例如角色)并且根据真实世界中的对象识别结果来控制虚拟对象的显示模式的处理。

例如，本公开的图像处理装置执行这些类型的处理。

参照图2及后续附图，将描述由本公开的图像处理装置执行的虚拟对象的显示控制的示例。

图2左侧示出的图示出了如下状态：佩戴透光型AR图像显示设备10的用户在公园走动并且在池塘附近在看着池塘水面的同时执行“指向”池塘水面。

透光型AR图像显示设备10包括摄像装置，捕获用户执行了指向的图像，并且经由设备内部的图像分析单元将捕获图像输入到三维地图生成单元。

图像分析单元从捕获图像中提取特征点，并且三维地图生成单元通过使用从图像中提取的特征点生成真实世界的三维地图。

例如，通过同时定位和映射(SLAM)处理实时执行生成三维地图的处理。

同时定位和映射(SLAM)处理是能够并行地同时执行自身位置估计和环境三维地图生成的处理。

此外，由三维地图生成单元生成的三维地图被输入到图像处理装置的对象识别单元。

对象识别单元使用由三维地图生成单元生成的三维地图，将用户的指向方向上的真实对象区域确定为目标区域11。此外，识别目标区域11中的对象。

例如，对象识别单元通过应用语义分割处理来执行对真实世界中的对象的识别处理。

语义分割是一种类型的图像辨识处理，并且是通过使用深度学习，以像素级执行识别图像中的对象是什么的任务的方法。语义分割是基于例如其中登记了各种实际对象的形状信息和其他特征信息的用于对象识别的字典数据(学习数据)与例如摄像装置捕获的图像中的对象之间的匹配度、来识别图像的每个构成像素(pixel)属于哪个对象分类(object category)的技术。

通过语义分割，可以识别摄像装置捕获的图像中包括的各种对象的类型，例如人、汽车、建筑物、道路、树木、池塘、草坪等。

在图2所示的示例中，透光型AR图像显示设备10的图像分析单元基于摄像装置捕获的图像来确定在用户的指向方向上的目标区域11中的对象是“池塘”。

此外，在透光型AR图像显示设备10中执行虚拟对象显示控制的内容显示控制单元输入目标区域11的对象识别结果，并且根据对象识别结果确定并显示要显示的虚拟对象(角色等)的选择处理和显示模式。

在图2所示的示例中，如图2右侧的(b)观察图像示例2所示，执行控制以显示“水精灵角色”的图像作为虚拟对象图像22。

这是基于用户的指向方向上的真实对象是“池塘”的分析结果的显示控制。

即，内容显示控制单元根据目标区域11的对象识别结果＝“池塘”，来执行选择并显示“水精灵角色”作为最佳虚拟对象的处理。

注意，虚拟对象图像22被显示为例如3D内容图像。

图3是说明由本公开的图像处理装置执行的不同虚拟对象的显示控制示例的图。

与图2类似，图3左侧所示的图是其中佩戴透光型AR图像显示设备10的用户在公园走动的图。用户在看着公园中的草坪的同时指向草坪的方向。

在这种情况下，透光型AR图像显示设备10的对象识别单元通过对摄像装置捕获的图像的分析，输出作为用户的指向方向的目标区域11中的对象是“草坪”的分析结果。

此外，透光型AR图像显示设备10的内容显示控制单元输入目标区域11的对象识别结果，并且根据对象识别结果确定并显示要显示的虚拟对象(角色等)的选择处理和显示模式。

在图3所示的示例中，如图3右侧的(b)观察图像示例2所示，执行控制以显示“草坪精灵角色”的图像作为虚拟对象图像23。

这是基于用户的指向方向上的真实对象是“草坪”的分析结果的显示控制。

即，内容显示控制单元根据目标区域11的对象识别结果＝“草坪”，来执行选择并显示“草坪精灵角色”作为最佳虚拟对象的处理。

图4是说明由本公开的图像处理装置执行的不同虚拟对象的显示控制示例的图。

与图2和图3类似，图4左侧所示的图是其中佩戴透光型AR图像显示设备10的用户在公园走动的图。用户在看着公园里的树的同时指向树的方向。

在这种情况下，透光型AR图像显示设备10的对象识别单元通过对摄像装置捕获的图像的分析，输出作为用户的指向方向的目标区域11中的对象是“树”的分析结果。

在图4所示的示例中，如图4右侧的(b)观察图像示例2所示，执行控制以显示“树精灵角色”的图像作为虚拟对象图像23。

这是基于用户的指向方向上的真实对象为“树”的分析结果的显示控制。

即，内容显示控制单元根据目标区域11的对象识别结果＝“树”，来执行选择并显示“树精灵角色”作为最佳虚拟对象的处理。

如上所述，本公开的图像处理装置通过使用SLAM处理等执行真实世界中的三维形状分析，生成真实世界中的三维地图，并且此外，通过诸如语义分割的对象识别处理来识别真实世界中的三维地图中的目标区域中的对象，并且根据识别结果对要显示的诸如角色的虚拟对象执行显示控制。

注意，要通过诸如语义分割的对象识别处理分析的真实对象的目标例如可以仅在由用户的手指指定的有限区域(即目标区域)中进行处理。因此，通过限制分析范围来实现高速处理。

注意，本公开的图像处理装置不限于参照图1描述的头戴式显示器(HMD)型透光型AR图像显示设备10，并且可以由包括各种显示单元的装置配置。

例如，可以使用图5所示的摄像装置捕获的图像显示型AR图像显示设备30。图5所示的摄像装置捕获的图像显示型AR图像显示设备30包括非透射型显示单元(显示器)。透光型显示单元(显示器)由用户佩戴以设置用户眼睛前方的位置，该位置可以被用户观察到。

由与摄像装置捕获的图像显示型AR图像显示设备30集成的摄像装置31捕获的图像(即图5所示的摄像装置捕获的图像32)被显示在用户眼睛前方的显示单元上。即，由摄像装置31捕获的真实对象的图像被显示在用户眼睛前方的显示单元上，并且用户可以通过观看摄像装置捕获的图像32来确认外部场景。

此外，例如角色图像等的虚拟对象的虚拟对象图像22被显示在显示单元(显示器)上。

用户可以一起观察在摄像装置捕获的图像显示型AR图像显示设备30的显示单元(显示器)上显示的摄像装置捕获的图像32(即真实对象图像)与角色等的虚拟对象图像22，并且可以感觉到好像诸如角色的虚拟对象像真实世界一样存在。

此外，本公开的图像处理装置可以是便携式显示装置，例如图6所示的智能电话40。

图6所示的智能电话40包括显示单元和摄像装置41。由摄像装置41捕获的图像(即，图中所示的摄像装置捕获的图像42)被显示在显示单元上。即，由摄像装置41捕获的真实对象的图像被显示在显示单元上，并且用户可以通过观看摄像装置捕获的图像来确认外部场景。

此外，虚拟对象的虚拟对象图像(例如角色图像等)被显示在显示单元(显示器)上。

用户可以一起观察在智能电话40的显示单元(显示器)上显示的摄像装置捕获的图像(即真实对象图像)与角色等的虚拟对象图像，并且可以感觉到仿佛诸如角色的虚拟对象像真实世界一样存在。

注意，在智能电话40的示例中，在用户触摸智能电话40的显示单元的特定位置的情况下，图像处理装置(智能电话)的图像分析单元分析触摸位置并且进一步确定触摸位置处的真实对象的类型。此后，图像处理装置(智能电话)的内容显示控制单元根据确定结果执行诸如角色的虚拟对象的显示控制。

如上所述，本公开的图像处理装置执行对象识别，例如，要作为虚拟对象的显示位置的目标区域中的真实对象是水、草还是树，并且根据识别结果来执行选择和显示要显示的诸如角色的虚拟对象的处理。

此外，本公开的图像处理装置不仅根据目标区域中的真实对象的识别结果执行对要显示的虚拟对象的选择处理，而且还根据真实对象识别结果执行改变诸如角色的虚拟对象的显示模式的处理。

参照图7以及后续图，将描述根据真实对象识别结果改变虚拟对象的显示模式的处理的具体示例。

图7示出作为在本公开的图像处理装置的显示单元上显示的AR图像的示例的、其中虚拟对象(角色)从作为真实对象的池塘中跳出的AR图像的显示示例。

本公开的图像处理装置的内容显示控制单元根据预设程序执行使目标区域中显示的诸如角色的虚拟对象移动或做出动作的处理。

图7所示的示例示出执行其中使显示在目标区域11中的角色沿向上方向移动的显示的示例。

图7(1)，当虚拟对象(角色)跳出池塘时的时刻-1是虚拟对象(角色)的上半部分被显示在水上而下半部分在水中的状态。

在这种状态下，如图7(1)所示，图像处理装置的内容显示控制单元以不同的显示模式显示水上的虚拟对象图像50和水中的虚拟对象图像51。

即，水上的虚拟对象图像50被显示为具有清晰轮廓的正常图像，而水中的虚拟对象图像51被显示为因为存在于水中而具有三维失真的图像。

此外，图像处理装置的内容声音控制单元经由扬声器输出水的声音(溅水声等)作为当角色移动到水上时的音效。

图7(2)，当虚拟对象(角色)跳出池塘时的时刻-2是图7(1)之后的AR图像显示示例。此时，虚拟对象(角色)的整个身体都被显示在水上方。在这种状态下，水上方的虚拟对象图像50是整个角色的图像，并且图像处理装置的内容显示控制单元将整个角色图像显示为具有清晰轮廓的图像。

图8是说明根据真实对象识别结果改变诸如角色的虚拟对象的显示模式的处理的另一具体示例的图。

图8示出作为在本公开的图像处理装置的显示单元上显示的AR图像的示例的、其中显示了虚拟对象(角色)的影子的AR图像的显示示例。

即，当内容显示控制单元在目标区域11中显示角色时，也显示角色的影子。

如图8所示的“(1)在其上出现影子的表面是平坦表面的情况下角色的影子的显示示例”

是在其上出现虚拟对象(角色)图像50的影子的表面是平坦表面(例如室内的地板或室外的人行道)的情况下影子的显示示例。

如上所述，在其上出现虚拟对象(角色)图像50的影子的表面是平坦表面的情况下，当在目标区域11中显示作为三维角色的虚拟对象图像50时，图像处理装置的内容显示控制单元将指示虚拟对象图像50的影子的虚拟对象影子图像52显示为具有清晰轮廓的图像。

另一方面，图8“(2)在其上出现影子的表面为非平坦表面(沙坑等)的情况下角色的影子的显示示例”

是在其上出现虚拟对象(角色)图像50的影子的表面不是平坦表面(例如，沙坑)的情况下影子的显示示例。

如上所述，在其上出现虚拟对象(角色)图像50的影子的表面是诸如沙坑的凹凸不平的表面的情况下，当在目标区域11中显示作为三维角色的虚拟对象图像50时，图像处理装置的内容显示控制单元将指示虚拟对象图像50的影子的虚拟对象影子图像52显示为具有不清晰的轮廓的凹凸不平的图像。

如上所述，本公开的图像处理装置的内容显示控制单元根据显示虚拟对象的目标区域中的真实对象的识别结果执行控制，以改变虚拟对象的显示模式，并且执行显示，此外，内容声音控制单元根据目标区域中的真实对象的识别结果执行音效的输出控制。

[2.本公开的图像处理装置的配置示例]

接下来，将描述本公开的图像处理装置的配置示例。

如上所述，本公开的图像处理装置可以被实现为具有各种形式的装置，例如参照图1描述的透光型AR图像显示设备10、参照图5描述的摄像装置捕获的图像显示型AR图像显示设备30或者诸如参照图6描述的智能电话40的便携式显示装置。

图9是示出可以采用这些各种形式的本公开的图像处理装置的配置示例的框图。

将描述图9所示的图像处理装置100的配置。

如图9所示，图像处理装置100包括数据输入单元110、数据处理单元120、数据输出单元130和通信单元140。

数据输入单元110包括外部成像摄像装置111、内部成像摄像装置112、运动传感器(陀螺仪、加速度传感器等)113、操作单元114和麦克风115。

数据处理单元120包括外部捕获图像分析单元121、三维地图生成单元122、内部捕获图像分析单元123、设备姿势分析单元124、声音分析单元125、对象识别单元126、空间地图数据127和类别关联更新时间数据128。

数据输出单元130包括内容显示控制单元131、内容声音控制单元132、显示单元133、扬声器134和类别关联虚拟对象数据(3D模型、声音数据等)135。

数据输入单元110的外部成像摄像装置111捕获外部图像。例如，在佩戴HMD的用户存在的环境中捕获外部场景等的图像。在诸如智能电话的移动终端的情况下，使用智能电话等中包括的摄像装置。

内部成像摄像装置112基本上是HMD独有的部件，并且捕获用户眼睛区域的图像以分析用户的视线方向。

运动传感器(陀螺仪、加速度传感器等)113检测图像处理装置100主体(例如，HMD、智能电话等)的姿势和移动。

运动传感器di 113包括例如陀螺仪、加速度传感器、取向传感器、单个定位传感器、惯性测量单元(IMU)等。

操作单元114是用户可以操作的操作单元，并且例如用于目标区域的输入、其他处理指令的输入等。

麦克风115用于通过用户的语音输入来输入指令等。此外，麦克风还可以用于输入外部环境声音。

接下来，将描述数据处理单元120的部件。

外部捕获图像分析单元121输入由外部成像摄像装置111捕获的外部的捕获图像，并且从外部捕获图像中提取特征点。

提取特征点的处理是用于生成三维地图的特征点，并且提取的特征点信息与由外部成像摄像装置111捕获的外部的捕获图像一起输入至三维地图生成单元122。

三维地图生成单元122基于由外部成像摄像装置111捕获的外部的捕获图像以及由外部捕获图像分析单元121提取的特征点，生成包括外部真实对象的三维地图。

例如，生成三维地图的处理作为实时处理通过同时定位和映射(SLAM)处理来执行。

如上所述，同时定位和映射(SLAM)处理是能够并行地同时执行自身位置估计和环境三维地图生成的处理。

由三维地图生成单元122生成的外部环境的三维地图数据被输入到对象识别单元126。

内部捕获图像分析单元123基于由内部成像摄像装置112捕获的用户的眼睛区域的图像来分析用户的视线方向。类似于以上描述的内部成像摄像装置112，内部捕获图像分析单元123基本上是HMD独有的部件。

由内部捕获图像分析单元123分析的用户视线信息被输入到对象识别单元126。

设备姿势分析单元124基于由运动传感器(陀螺仪、加速度传感器等)113测量的传感器检测信息，来分析诸如HMD或智能电话的图像处理装置100主体的姿势和移动。

由设备姿势分析单元124分析的图像处理装置100主体的姿势和移动信息被输入到对象识别单元126。

声音分析单元125分析从麦克风115输入的用户语音和环境声音。分析结果被输入到对象识别单元126。

对象识别单元126输入由三维地图生成单元122生成的三维地图，确定要设置为虚拟对象的显示区域的目标区域，并且进一步执行确定的目标区域中的真实对象的识别处理。执行对象识别处理，例如目标区域为池塘、树木等。

可以通过各种方法来执行识别目标区域的处理。

例如，可以通过使用包括在三维地图中的用户手指的图像来执行上述处理。

获得用户指向方向上的延长线与三维地图上的真实对象之间的交点，并且例如将以该交点为中心的预定半径的圆形区域确定为目标区域。

注意，目标区域的指定还可以通过用户的指向以外的方法来执行。对象识别单元126可以使用以下信息中的任何信息作为用于确定目标区域的信息。

(a)由内部捕获图像分析单元123分析的用户视线信息

(b)由设备姿势分析单元124分析的图像处理装置100主体的姿势和移动信息

(c)经由操作单元114输入的用户操作信息

(d)由声音分析单元125分析的用户语音信息

在使用“(a)由内部捕获图像分析单元123分析的用户视线信息”的情况下，对象识别单元126获得用户的视线方向的延长线与三维地图上的真实对象之间的交点并且例如将以该交点为中心的具有预定半径的圆形区域确定为目标区域。

在使用“(b)由设备姿势分析单元124分析的图像处理装置100主体的姿势和移动信息”的情况下，对象识别单元126获得用户佩戴的HMD或用户握持的智能电话的前方方向上的延长线与三维地图上的真实对象之间的交点，并且例如将以该交点为中心的具有预定半径的圆形区域确定为目标区域。

在使用“(c)经由操作单元114输入的用户操作信息”的情况下，对象识别单元126基于例如经由图像处理装置100的输入单元输入的用户操作信息来确定目标区域。

例如，在使用前面描述的图6所示的智能电话的配置中，可以执行如下处理：由用户的手指输入画面位置指定信息作为用户操作信息，并且将画面位置指定信息的指定位置设置为目标区域的中心位置。

注意，除此之外，与图像处理装置100分离的条形指示构件可以用作操作单元114，指示构件的指示方向信息可以被输入到对象识别单元126，并且目标区域可以基于指示方向来确定。

在使用“(d)由声音分析单元125分析的用户语音信息”的情况下，对象识别单元126分析例如用户的话语以确定目标区域。

例如，在用户的话语是诸如“前面的池塘”的话语的情况下，该颜色被确定为目标区域。

此外，对象识别单元126可以执行除这些之外的目标区域确定处理。例如，可以基于根据由外部成像摄像装置111捕获的图像生成的三维地图或者来自运动传感器113的检测信息来执行诸如地面、地板表面或水面的水平表面的检测处理，并且可以执行将水平表面中最靠近捕获图像的中心区域的区域确定为目标区域的处理。

此外，还可以执行如下处理：例如，用户执行投掷虚拟球的操作，由外部成像摄像装置111捕获虚拟球的图像，通过分析捕获图像分析球的着地点，并且将着地点设置为目标区域的中心位置。

对象识别单元126通过使用上述方法中的任何方法来确定要作为虚拟对象显示区域的目标区域。此外，对确定的目标区域中的真实对象执行识别处理。执行对象识别处理，例如目标区域为池塘、树木等。

如上所述，例如，通过应用语义分割处理来执行对真实对象的对象识别处理。

语义分割是基于例如其中登记了各种实际对象的形状信息和其他特征信息的用于对象识别的字典数据(学习数据)与例如摄像装置捕获的图像中的对象之间的匹配度来识别图像的每个构成像素(pixel)属于哪个对象分类的技术。

注意，由对象识别单元126执行的真实对象的识别处理仅针对目标区域或者仅针对包括目标区域的周边区域的有限范围执行。通过在有限范围内执行这种处理，可以执行高速处理，即实时处理。注意。例如，实时处理是指在用户指定目标区域后立即执行对真实对象的识别处理。结果，例如，在用户观察目标区域的同时没有时间延迟地完成对象识别。

由对象识别单元126分析的目标区域中真实对象的识别结果被输入到数据输出单元130的内容显示控制单元131和内容声音控制单元132。

数据输出单元130的内容显示控制单元131输入来自对象识别单元126的针对目标区域的对象识别结果，根据对象识别结果确定要显示的虚拟对象(角色等)的选择处理和显示模式，并且将虚拟对象显示在显示单元133上。

具体地，例如，执行对如先前描述的图2至图4、图7和图8所示的虚拟对象(角色等)的显示处理。

数据输出单元130的内容声音控制单元132输入来自对象识别单元126的目标区域的对象识别结果，根据对象识别结果确定要输出的声音，并且经由扬声器134输出声音。

具体地，例如，如先前描述的图7所示，在虚拟对象从作为真实对象的池塘中出现的情况下，执行输出水声的处理。

注意，数据输出单元130的内容显示控制单元131和内容声音控制单元132获取记录在类别关联虚拟对象数据135中的精灵装扮对象的3D内容和各种声音数据并且执行数据输出。

在类别关联虚拟对象数据135中，记录了用于与目标区域中的真实对象的识别结果所对应的真实对象类型(类别)相关联的显示的精灵装扮对象的3D内容和各种声音数据。

稍后将描述类别关联虚拟对象数据135的具体示例。

此外，在图像处理装置100被配置成执行显示摄像装置捕获的图像的处理的情况下，例如，如在参照图5描述的摄像装置捕获的图像显示型AR图像显示设备30或者参照图6描述的智能电话40那样，内容显示单元131输入外部成像摄像装置11的捕获图像，生成其中虚拟对象被叠加在捕获图像上的显示图像，并且将显示图像显示在显示单元133上。

通信单元140与例如外部服务器通信，并且获取作为虚拟内容的角色的3D内容。此外，可以从外部服务器获取数据处理所需的各种数据和参数。

注意，对象识别单元126在执行目标区域中的真实对象的识别处理时，将识别结果作为空间地图数据127存储在存储单元中。

图10示出了空间地图数据127的数据配置示例。

如图10所示，空间地图数据中存储了下面每条数据的关联数据。

(a)时间戳(秒)

(b)位置信息

(c)类别

(d)识别处理之后的经过时间(秒)

(a)时间戳(秒)是关于对象识别处理的执行的时间信息。

(b)位置信息是作为对象识别目标的真实对象的位置信息。作为记录位置信息的方法，可以使用各种方法。图中所示的示例是由三维坐标(x,y,z)的列表描述为网格的示例。另外，例如，可以记录目标区域的中心位置的位置信息。

(c)类别是作为对象识别结果的对象类型信息。

(d)识别处理之后的经过时间(秒)是从完成对象识别处理结束起经过的时间。

注意，在确定目标区域之后，对象识别单元126立即执行目标区域中的真实对象的识别处理，并且之后，对该区域重复执行对象识别处理，并且顺序更新图10所示的空间地图数据。

然而，更新处理的间隔根据所识别的真实对象的类型(类别)而变化。

根据真实对象的类型(类别)而不同的更新时间的指定数据被预先登记为类别关联更新时间数据128。

图11示出了类别关联更新时间数据128的数据示例。

如图11所示，类别关联更新时间数据128是其中以下数据相互关联的数据。

(a)ID

(b)分类

(c)类别

(d)更新时间(秒)

(a)ID是登记数据的标识符。

(b)分类是真实对象的类型(类别)的分类。

(c)类别是真实对象的类型信息。

(d)更新时间(秒)是指示真实对象识别处理的更新间隔的时间。

例如，在ID001的类别(对象类型)＝草坪的情况下，更新时间为3600秒(＝1小时)。在诸如草坪的对象中，随着经过时间的变化小，将更新时间设置得长。

另一方面，例如，在ID＝004的类别(对象类型)＝影子的情况下，更新时间为2秒。在诸如影子的对象中，随着经过时间的变化大，因此将更新时间设置得短。

对象识别单元126参考类别关联更新时间数据128的数据，并且根据需要以针对识别的对象定义的时间间隔重复执行对象识别处理。通过新的识别处理检测到的真实对象被顺序登记为参照图10描述的空间地图数据127。

此外，如上所述，数据输出单元130的内容显示控制单元131和内容声音控制单元132获取记录在类别关联虚拟对象数据135中的精灵装扮对象的3D内容和各种声音数据，并且执行数据输出。

在类别关联虚拟对象数据135中，记录了用于与目标区域中的真实对象的识别结果所对应的真实对象类型(类别)相关联的显示的精灵装扮对象的3D内容和各种声音数据。.

将参照图12描述类别关联虚拟对象数据135的具体示例。

如图12所示，在类别关联虚拟对象数据135中相互关联地记录以下数据。

(a)类别

(b)虚拟对象3D模型(角色3D模型)

(c)输出声音

(a)类别是真实对象的类型信息。

作为(b)虚拟对象3D模型(角色3D模型)，登记根据每个类别、即目标区域中的真实对象的类型，要输出(显示)的虚拟对象(角色)的3D模型。注意，在图中所示的示例中，3D模型的ID与3D模型一起被记录，但是例如也可以只记录ID，并且可以基于ID从其他数据库中获取与ID相关联的3D模型。

作为(c)输出声音，登记根据每个类别、即目标区域中的真实对象的类型要输出的声音数据。

如上所述，在类别关联虚拟对象数据135中，记录了用于与目标区域中的真实对象的识别结果所对应的真实对象类型(类别)相关联的显示的精灵装扮对象的3D内容和各种声音数据。

注意，每个虚拟对象的输出模式信息也被记录在类别关联虚拟对象数据135中。例如，如前面参照图7和图8所述，还记录了例如以下信息：在目标区域中的真实对象为水的情况下的显示模式信息；或者在目标区域中的真实对象为沙坑的情况下的显示模式信息。

数据输出单元130的内容显示控制单元131和内容声音控制单元132获取记录在存储如图12所示的数据的类别关联虚拟对象数据135中的精灵装扮对象的3D内容和各种声音数据，并且执行数据输出。

[3.由本公开的图像处理装置执行的处理的序列]

接下来，将描述由本公开的图像处理装置100执行的处理的序列。

注意，将顺序描述以下描述的多个处理序列。

(1)由图像处理装置执行的基本处理序列

(2)在大致水平的表面中设置目标区域的设置区域的处理的序列

(3)真实对象识别处理的更新序列

(3-(1)由图像处理装置执行的基本处理序列)

首先，参照图13所示的流程图，将描述由本公开的图像处理装置100执行的基本处理的序列。

注意，根据图13和后续图中所示的流程图的处理是主要在图像处理装置100的数据处理单元120中执行的处理。数据处理单元120包括具有程序执行功能的CPU，并且根据按照存储在存储单元中的程序的流程执行处理。

下面，将描述图13所示流程的每个步骤的处理。

(步骤S101)

首先，在步骤S101中，图像处理装置100的数据处理单元120输入外部成像摄像装置的捕获图像。

(步骤S102)

接下来，在步骤S102中，数据处理单元120从由外部成像摄像装置输入的捕获图像中提取特征点。

该处理是由图9所示的数据处理单元120的外部捕获图像分析单元121执行的处理。

外部捕获图像分析单元121从由外部成像摄像装置输入的捕获图像中提取特征点。提取特征点的处理是用于生成三维地图的特征点，并且提取的特征点信息与由外部成像摄像装置捕获的外部的捕获图像一起输入到三维地图生成单元122。

(步骤S103)

接下来，在步骤S103中，数据处理单元通过使用由外部成像摄像装置捕获的外部的捕获图像及其特征点信息生成三维地图。

该处理是由图9所示的数据处理单元120的三维地图生成单元122执行的处理。

例如，通过同时定位和映射(SLAM)处理将生成三维地图的处理作为实时处理来执行。

(步骤S104)

接下来，在步骤S104中，数据处理单元执行目标区域确定处理。

该处理是由图9所示的数据处理单元120的对象识别单元126执行的处理。

对象识别单元126确定要作为虚拟对象显示区域的目标区域。

如上所述，可以将各种方法应用于目标区域确定处理。

即，获得用户的指向方向上的延长线与三维地图上的真实对象之间的交点，并且例如将以交点为中心的具有预定半径的圆形区域确定为目标区域。

此外，还可以通过使用来自图9所示的数据输入单元110的每个部件的输入信息来确定目标区域。具体地，输入信息是以下输入信息。

(a)由内部捕获图像分析单元123分析的用户视线信息

(c)经由操作单元114输入的用户操作信息

(d)由声音分析单元125分析的用户语音信息

例如，可以通过使用这些输入信息中的任何信息来确定目标区域。

将参照图14和图15描述代表性目标区域确定序列。

图14(1)示出了基于用户的指向方向的分析的目标区域确定序列。基于用户的指向方向的分析的目标区域确定处理按以下处理序列执行。

首先，在步骤S211中，分析用户的指向方向。通过使用由三维地图生成单元122生成的三维地图来执行该分析处理。

接下来，在步骤S212中，检测由用户的指向方向上的延长线形成的直线与真实对象之间的交点。该处理也通过使用由三维地图生成单元122生成的三维地图来执行。

最后，在步骤S213中，将以由用户的指向方向上的延长线形成的直线与真实对象之间的交点为中心的圆形区域确定为目标区域。

注意，目标区域的形状是任意的，并且除了圆形之外还可以是矩形。目标区域的尺寸也是任意的，并且可以设置成各种尺寸。

然而，优选的是预先定义形状和尺寸，并且根据该定义确定目标区域。

图14(2)示出基于用户视线方向的分析的目标区域确定序列。基于用户视线方向的分析的目标区域确定处理按以下处理序列执行。

首先，在步骤S221中，分析用户的视线方向。该分析处理由内部捕获图像分析单元123基于由内部成像摄像装置112的捕获图像来执行。

接下来，在步骤S222中，检测由用户的视线方向的延长线形成的直线与真实对象之间的交点。通过使用由三维地图生成单元122生成的三维地图来执行该处理。

最后，在步骤S223中，将以由用户的视线方向的延长线形成的直线与真实对象之间的交点为中心的圆形区域确定为目标区域。

注意，如上所述，可以不同地设置目标区域的形状和尺寸。

图15(3)示出基于用户操作信息的分析的目标区域确定序列。基于用户操作信息的分析的目标区域确定处理按以下处理序列执行。

首先，在步骤S231中，分析用户操作信息。例如，用户操作是对前面参照图6描述的智能电话的触摸操作。

接下来，在步骤S232中，检测基于用户操作信息的真实对象指定位置。该处理例如作为用户的手指接触位置的检测处理来执行。

最后，在步骤S233中，将以基于用户操作信息的真实对象指定位置为中心的圆形区域确定为目标区域。

注意，如上所述，可以不同地设置目标区域的形状和尺寸。

图15(4)示出了基于用户语音信息的分析的目标区域确定序列。基于用户语音信息的分析的目标区域确定处理按以下处理序列执行。

首先，在步骤S241中，分析用户发出的语音。例如，分析诸如“前面的池塘”的用户发出的语音。

接下来，在步骤S242中，检测基于用户语音信息的真实对象指定位置。

最后，在步骤S243中，将以基于用户发出的语音的真实对象指定位置为中心的圆形区域确定为目标区域。

注意，如上所述，可以不同地设置目标区域的形状和尺寸。

除了参照图14和图15的描述之外，例如，可以执行以下目标区域确定处理。

(a)使用由设备姿势分析单元124分析的图像处理装置100主体的姿势和移动信息的目标区域确定处理。

(b)基于根据由外部成像摄像装置111捕获的图像生成的三维地图或者来自运动传感器113的检测信息来执行对诸如地面、地板表面或水面的水平表面的检测处理以及将水平表面中最靠近捕获图像的中心区域的区域确定为目标区域的处理。

(c)其中用户执行投掷虚拟球的操作、由外部成像摄像装置111捕获虚拟球的图像、通过分析捕获图像分析球的着地点、并且将着地点确定为目标区域的中心位置的处理。

(d)另外，分析用户动作、用户视线、用户操作、用户位置和用户姿势中的至少任意一个并且基于分析结果来确定目标区域的处理。

返回图13所示的流程，继续进行描述。

如上所述，图像处理装置100的数据处理单元120的对象识别单元126在步骤S104中执行目标区域确定处理。

(步骤S105)

接下来，在步骤S105中，数据处理单元识别目标区域中的真实对象。

具体地，执行对象识别处理，例如目标区域为池塘、树木等。

注意，由对象识别单元126执行的真实对象的识别处理仅针对目标区域或者仅针对包括目标区域的周边区域的有限范围执行。通过在有限范围内进行这种处理，可以执行高速处理，即实时处理。

(步骤S106)

接下来，在步骤S106中，基于识别的目标区域中的真实对象(类别)，确定要在目标区域中显示的虚拟对象的类型和输出模式。

该处理是由图9所示的图像处理装置100的数据输出单元130的内容显示控制单元131和内容声音控制单元132执行的处理。

数据输出单元130的内容显示控制单元131和内容声音控制单元132参考其中记录了前面参照图12描述的数据的类别关联虚拟对象数据135，以确定要在目标区域中显示的虚拟对象的类型和输出模式。

即，执行如下处理等：从类别关联虚拟对象数据135的各条目中选择其中记录了目标区域中的真实对象类型(类别)的条目，并且将记录在该条目中的精灵装扮对象确定为输出对象。

(步骤S107)

最后，在步骤S107中，根据在步骤S106中确定的要在目标区域中显示的虚拟对象的类型和输出模式，将虚拟对象输出(显示)到目标区域。

该处理也是由图9所示的图像处理装置100的数据输出单元130的内容显示控制单元131和内容声音控制单元132执行的处理。

内容显示控制单元131输入来自对象识别单元126的针对目标区域的对象识别结果，根据对象识别结果确定要显示的虚拟对象(角色等)的选择处理和显示模式，并且在显示单元133上显示虚拟对象。

具体地，例如，执行如先前描述的图2至图4、图7和图8所示的对虚拟对象(角色等)的显示处理。

此外，内容声音控制单元132输入来自对象识别单元126的针对目标区域的对象识别结果，根据对象识别结果确定要输出的声音，并且经由扬声器134输出声音。

具体地，例如，如前述的图7所示，在从作为真实对象的池塘中出现虚拟对象的情况下，执行输出水声的处理。

(3-(2)在大致水平的表面中设置目标区域的设置区域的处理序列)

接下来，参照图16所示的流程图，将描述在大致水平的表面中设置目标区域的设置区域的处理的序列。

在真实世界中的真实对象上显示诸如角色的虚拟对象的情况下，如果在真实对象在室外的情况下虚拟对象被显示在地面上，如果在真实对象在室内的情况下虚拟对象被显示在地板上，更自然的角色显示成为可能，并且可以让用户感觉到角色实际上存在于真实世界中。

为此目的，执行控制以在诸如地面上或地板上之类的大致水平的表面中设置要作为虚拟对象(即，角色)的输出区域的目标区域是有效的。

图16所示的流程图是说明执行这种处理的图像处理装置100的处理序列的流程图。

在下文中，将描述图16所示的流程图的每个步骤的处理。

注意，图16所示的流程图的步骤S101至S103和步骤S105至S107的处理是类似于前面参照图13描述的基本处理流程的对应步骤的处理的处理。

图16所示的流程的步骤S301至S303中的处理和步骤S104中的处理是与之前描述的图13所示的流程不同的点。

将描述每个步骤的处理。

(步骤S301)

步骤S301是将来自图9所示的图像处理装置100的数据输入单元110的运动传感器113的传感器检测信息输入到数据处理单元120的设备姿势分析单元124的处理。

如之前参照图9所述，运动传感器113包括陀螺仪、加速度传感器等，并且是检测例如HMD或智能电话的图像处理装置100主体的姿势和移动的传感器。

传感器检测信息从运动传感器113输入到数据处理单元120的设备姿势分析单元124。

(步骤S302)

接下来，在步骤S302中，基于运动传感器检测信息来估计重力方向。

该处理是由图9所示的数据处理单元120的设备姿势分析单元124执行的处理。

数据处理单元120的设备姿势分析单元124通过使用来自构成运动传感器113的陀螺仪、加速度传感器等的传感器检测信息来计算重力方向。

(步骤S303)

接下来，在步骤S303中，执行水平表面区域的检测处理。

该处理是由图9所示的对象识别单元126执行的处理。

对象识别单元126通过使用由三维地图生成单元122生成的三维地图以及从设备姿势分析单元124输入的重力方向信息来检测三维地图中的水平表面区域。具体地，例如，检测地面、地板表面等。

注意，要检测的水平表面区域不限于完整的水平表面，只需要是大致水平的区域即可。

例如，特定程度的不平坦、具有特定程度的倾斜度的斜坡等也被确定和检测为水平表面区域。

可以预先设置允许何种程度的不平坦度或倾斜度作为水平表面区域。

(步骤S104)

然而，在本处理示例中，仅从在步骤S303中检测到的水平表面区域中选择目标区域。

对象识别单元126仅在步骤S303中检测到的水平表面区域内确定要作为虚拟对象显示区域的目标区域。

如上所述，可以将各种方法应用于目标区域确定处理。

即，获得用户指向方向的延长线与作为三维地图上的真实对象并且被确定为诸如地面或地板表面的水平表面的水平表面区域之间的交点，并且将以与该水平表面的交点为中心的具有预定半径的圆形区域确定为目标区域。

注意，作为用于确定目标区域的数据，可以使用如前面参照图13所述的各种类型的信息。例如，可以使用以下输入信息。

(a)由内部捕获图像分析单元123分析的用户视线信息

(c)经由操作单元114输入的用户操作信息

(d)由声音分析单元125分析的用户语音信息

例如，可以使用这些输入信息中的任何信息来确定目标区域。

步骤S101至S103中的处理以及步骤S105和后续步骤中的处理类似于先前描述的图13所示的流程图中的处理。

在本处理示例中，变得可以执行控制以在诸如地面上或地板上的大致水平的表面中设置要作为虚拟对象(即，角色)的输出区域的目标区域。

结果，在真实世界的真实对象上显示诸如角色的虚拟对象的情况下，能够以使得虚拟对象与水平表面区域(例如，真实对象在室内的情况下的地面上的水平表面区域，或者真实对象在室内的情况下的地板上的水平表面区域)接触的方式进行显示，并且更自然的角色显示成为可能，并且变得可以让用户感觉到角色实际上存在于真实世界中。

(3-(3)真实对象识别处理的更新序列)

接下来，将描述由对象识别单元执行的真实对象识别处理的更新序列。

如之前参照图10、图11等所述，在确定目标区域之后，图9所示的图像处理装置100的数据处理单元120中的对象识别单元126立即执行目标区域中的真实对象的识别处理，并且此后，对该区域重复执行对象识别处理，并且顺序更新图10所示的空间地图数据。

类别关联更新时间数据128是其中以下数据彼此相关联的数据，如前面参照图11所述。

(a)ID

(b)分类

(c)类别

(d)更新时间(秒)

(a)ID是登记数据的标识符。

(b)分类是真实对象的类型(类别)的分类。

(c)类别是真实对象的类型信息。

例如，在ID001的类别(对象类型)＝草坪的情况下，更新时间为3600秒(＝1小时)。在诸如草坪的对象中，随着经过时间的变化小，并且将更新时间设置得长。

图17所示的流程图是说明包括对象识别处理的重复执行序列的处理的流程图。

在下文中，将描述图17所示的流程图的每个步骤的处理。

注意，图17所示的流程图的步骤S101至S105的处理和步骤S106至S107的处理类似于前面参照图13描述的基本处理流程的每个步骤的处理。

图17所示的流程的步骤S401和S402中的处理是与之前描述的图13所示的流程不同的点。

将描述每个步骤的处理。

(步骤S401)

在步骤S101至S105中，执行目标区域的确定和目标区域的真实对象(类别)的识别处理，然后执行步骤S401的处理。

在步骤S401中，将在步骤S105中执行的针对目标区域的对象识别处理的结果记录在空间地图数据中。

如前面参照图10所述，空间地图数据存储以下每个数据的关联数据。

(a)时间戳(秒)

(b)位置信息

(c)类别

(d)识别处理之后的经过时间(秒)

(a)时间戳(秒)是关于对象识别处理的执行的时间信息。

(b)位置信息是作为对象识别目标的真实对象的位置信息。

(c)类别是作为对象识别结果的对象类型信息。

(d)识别处理之后的经过时间(秒)是从对象识别处理完成起经过的时间。

在步骤S401中，对于在步骤S105中识别的目标区域中的真实对象，将这些数据登记在空间地图数据中。

(步骤S106至S107)

步骤S106至S107的处理类似于前面参照图13描述的处理。即，执行以下处理。

在步骤S106中，基于识别出的目标区域中的真实对象(类别)，确定要在目标区域中显示的虚拟对象的类型和输出模式。

在步骤S107中，根据在步骤S106中确定的要在目标区域中显示的虚拟对象的类型和输出模式，将虚拟对象输出(显示)到目标区域。

(步骤S402)

此外，在步骤S107的处理之后，在步骤S402中，确定在步骤S105中执行的目标区域中的真实对象的识别处理之后经过的时间是否超过了在参照图11描述的类别关联更新时间数据中定义的“(d)更新时间”。

在确定经过时间超过更新时间的情况下，处理返回到步骤S101，并且重复执行步骤S101和后续步骤的处理。

即，再次执行目标区域的确定和针对目标区域的真实对象识别处理。

在该处理中，如果目标区域的位置没有发生变化，则在同一位置处的目标区域中再次执行真实对象识别。

另一方面，如果目标区域的位置发生了变化，则在新位置处的目标区域中执行真实对象识别。

通过执行这些类型的处理，变得可以立即执行更新目标区域的处理以及更新真实对象的识别结果的处理，并且可以根据用户的移动或指令执行适时的虚拟对象显示处理。

[4.图像处理装置的硬件配置示例]

接下来，参照图18，将描述执行根据上述实施方式的处理的图像处理装置的硬件配置示例。

图18所示的硬件是参照图9描述的本公开的图像处理装置100的硬件配置的示例。

将描述图18中所示的硬件配置。

中央处理单元(CPU)301用作数据处理单元，其根据只读存储器(ROM)302或存储单元308中存储的程序执行各种类型的处理。例如，根据上述实施方式中描述的序列执行处理。随机存取存储器(RAM)303存储由CPU 301执行的程序、数据等。这些CPU 301、ROM 302和RAM303通过总线304相互连接。

CPU 301经由总线304连接到输入/输出接口305，并且输入/输出接口305连接到：输入单元306，其包括各种传感器、摄像装置、开关、键盘、鼠标、麦克风等；以及输出单元307，其包括显示器、扬声器等。

连接到输入/输出接口305的存储单元308包括例如硬盘等，并且存储由CPU 301执行的程序和各种数据。通信单元309用作经由诸如因特网或局域网之类的网络的数据通信发送/接收单元，并且进一步用作广播波的发送/接收单元，并且与外部装置进行通信。

连接到输入/输出接口305的驱动器310驱动诸如磁盘、光盘、磁光盘或者诸如存储卡之类的半导体存储器的可移除介质311，并且执行数据记录或读取。

[5.本公开的配置的总结]

以上已经参照具体实施方式对本公开的实施方式进行了详细描述。然而，不言而喻，本领域技术人员可以在不脱离本公开的主旨的情况下对实施方式进行修改和替换。换句话说，本发明是以示例的形式公开的，不应被限制性地解释。为了确定本公开的主旨，应当考虑权利要求的范围。

注意，本说明书中公开的技术可以具有以下配置。

(1)一种图像处理装置，包括：

所述对象识别单元

执行识别所述虚拟对象的显示区域中的真实对象的对象识别处理，并且

所述内容显示控制单元

根据所述对象识别单元中识别的对象识别结果选择要显示的虚拟对象。

(2)根据(1)所述的图像处理装置，其中，

所述对象识别单元

通过图像辨识处理执行对象识别处理。

(3)根据(2)所述的图像处理装置，其中，

所述对象识别单元

通过应用语义分割处理来执行对象识别处理。

(4)根据(1)至(3)中任一项所述的图像处理装置，其中，

所述对象识别单元

确定要作为所述虚拟对象的显示区域的目标区域，并且对所确定的目标区域中的真实对象执行识别处理。

(5)根据(4)所述的图像处理装置，其中，

所述对象识别单元

基于用户动作、用户视线、用户操作、用户位置和用户姿势中的至少任意一个来确定所述目标区域。

(6)根据(4)或(5)所述的图像处理装置，其中，

所述对象识别单元

从水平表面区域选择并确定所述目标区域。

(7)根据(6)所述的图像处理装置，其中，

所述内容显示控制单元

显示所述虚拟对象，使得所述虚拟对象与所述水平表面区域接触。

(8)根据(1)至(7)所述的图像处理装置，其中，

所述对象识别单元

将所述对象识别处理作为实时处理来执行。

(9)根据(1)至(8)中任一项所述的图像处理装置，其中，

所述对象识别单元

根据对象类型以预先定义的时间间隔重复执行对象识别处理。

(10)根据(1)至(9)中任一项所述的图像处理装置，还包括：

三维地图生成单元，其基于摄像装置捕获的图像来生成真实世界的三维地图，其中，

所述对象识别单元

通过使用所述三维地图来确定要作为所述虚拟对象的显示区域的目标区域。

(11)根据(10)所述的图像处理装置，其中，

所述三维地图生成单元

通过同时定位和映射(SLAM)处理生成真实世界的三维地图。

(12)根据(1)至(11)中任一项所述的图像处理装置，其中，

所述内容显示控制单元

根据所述对象识别单元中识别的对象识别结果选择要显示的虚拟对象，并且

还根据所述对象识别结果控制要显示的虚拟对象的显示模式。

(13)根据(1)至(12)中任一项所述的图像处理装置，还包括：

执行声音输出控制的内容声音控制单元，其中，

所述内容声音控制单元

根据所述对象识别单元中识别的对象识别结果确定并输出要输出的声音。

(14)一种在图像处理装置中执行的图像处理方法，所述方法包括：

由对象识别单元执行对象识别处理步骤，所述对象识别处理步骤执行对真实世界中的真实对象的识别处理；以及

由内容显示控制单元执行内容显示控制步骤，所述内容显示控制步骤生成其中真实对象和虚拟对象被叠加显示的增强现实(AR)图像，其中，

所述对象识别处理步骤

是执行识别所述虚拟对象的显示区域中的真实对象的对象识别处理的步骤，并且

所述内容显示控制步骤

执行根据所述对象识别处理步骤中识别的对象识别结果来选择要显示的虚拟对象的步骤。

(15)一种用于使得在图像处理装置中执行图像处理的程序，所述程序：

使对象识别单元执行对象识别处理步骤，所述对象识别处理步骤执行对真实世界中的真实对象的识别处理；

使内容显示控制单元执行内容显示控制步骤，所述内容显示控制步骤生成其中真实对象和虚拟对象被叠加显示的增强现实(AR)图像；

在所述对象识别处理步骤中，

使对象识别处理被执行，所述对象识别处理识别所述虚拟对象的显示区域中的真实对象；并且

在所述内容显示控制步骤中，

使得如下步骤被执行，该步骤根据所述对象识别处理步骤中识别的对象识别结果来选择要显示的虚拟对象。

此外，说明书中描述的一系列处理步骤可以通过硬件、软件或两者的组合来执行。在通过软件执行处理的情况下，可以在包括在专用硬件中的计算机中安装并执行将处理序列记录在存储器中的程序，或者在能够执行各种不同类型的功能的通用计算机中安装并执行该程序。例如，程序可以被预先记录在记录介质中。除了从记录介质安装到计算机之外，程序还可以经由诸如局域网(LAN)或因特网之类的网络接收，并且被安装在诸如内置硬盘的记录介质中。

注意，说明书中描述的各种类型的处理不仅根据说明书按时间顺序执行，而且可以根据执行处理的装置的处理能力或者根据需要并行或单独执行。此外，在本说明书中，术语“系统”是多个装置的逻辑组配置，并且不限于每个配置的装置在同一外壳中的配置。

工业适用性

如上所述，根据本公开的实施方式的配置，实现了根据要作为虚拟对象的显示区域的目标区域中的真实对象类型来执行要显示的虚拟对象的选择或显示模式改变的装置和方法。

具体地，例如，包括：对象识别单元，其执行真实世界中的真实对象的识别处理，以及内容显示控制单元，其生成其中真实对象和虚拟对象被叠加显示的AR图像。对象识别单元识别要作为虚拟对象的显示区域的目标区域中的真实对象，并且内容显示控制单元根据对象识别结果执行选择要显示的虚拟对象的处理或改变显示模式的处理。

通过该配置，实现了根据要作为虚拟对象的显示区域的目标区域中的真实对象类型来执行要显示的虚拟对象的选择或显示模式改变的装置和方法。

附图标记列表

10 透光型AR图像显示设备

11 目标区域

21 透射观察图像

22至24 虚拟对象图像

30 摄像装置捕获的图像显示型AR图像显示设备

31 摄像装置

32 摄像装置捕获的图像

40 智能电话

41 摄像装置

42 摄像装置捕获的图像

50 水上的虚拟对象图像

51 水中的虚拟对象图像

52 虚拟对象图像

53、54 虚拟对象影子图像

100 图像处理装置

110 数据输入单元

111 外部成像摄像装置

112 内部成像摄像装置

113 运动传感器(陀螺仪、加速度传感器等)

114 操作单元

115 麦克风

120 数据处理单元

121 外部捕获图像分析单元

122 三维地图生成单元

123 内部捕获图像分析单元

124 设备姿势分析单元

125 声音分析单元

126 对象识别单元

127 空间地图数据

128 类别关联更新时间数据

130 数据输出单元

131 内容显示控制单元

132 内容声音控制单元

133 显示单元

134 扬声器

135 类别关联虚拟对象数据(3D模型、声音数据等)

140 通信单元

301 CPU

302 ROM

303 RAM

304 总线

305 输入/输出接口

306 输入单元

307 输出单元

308 存储单元

309 通信单元

310 驱动器

311 可移除介质

Claims

1.一种图像处理装置，包括：

所述对象识别单元

所述内容显示控制单元

2.根据权利要求1所述的图像处理装置，其中，

所述对象识别单元

通过图像辨识处理执行对象识别处理。

3.根据权利要求2所述的图像处理装置，其中，

所述对象识别单元

通过应用语义分割处理来执行对象识别处理。

4.根据权利要求1所述的图像处理装置，其中，

所述对象识别单元

5.根据权利要求4所述的图像处理装置，其中，

所述对象识别单元

基于用户动作、用户视线、用户操作、用户位置和用户姿势中至少任意之一来确定所述目标区域。

6.根据权利要求4所述的图像处理装置，其中，

所述对象识别单元

从水平表面区域选择并确定所述目标区域。

7.根据权利要求6所述的图像处理装置，其中，

所述内容显示控制单元

8.根据权利要求4所述的图像处理装置，其中，

所述对象识别单元

将所述对象识别处理作为实时处理来执行。

9.根据权利要求1所述的图像处理装置，其中，

所述对象识别单元

10.根据权利要求1所述的图像处理装置，还包括：

所述对象识别单元

11.根据权利要求10所述的图像处理装置，其中，

所述三维地图生成单元

通过同时定位和映射(SLAM)处理生成真实世界的三维地图。

12.根据权利要求1所述的图像处理装置，其中，

所述内容显示控制单元

13.根据权利要求1所述的图像处理装置，还包括：

执行声音输出控制的内容声音控制单元，其中，

所述内容声音控制单元

14.一种在图像处理装置中执行的图像处理方法，所述方法包括：

所述对象识别处理步骤

所述内容显示控制步骤

15.一种用于使得在图像处理装置中执行图像处理的程序，所述程序：

在所述对象识别处理步骤中，

在所述内容显示控制步骤中，