CN112639870B

CN112639870B - 图像处理装置、图像处理方法和图像处理程序

Info

Publication number: CN112639870B
Application number: CN201980053836.9A
Authority: CN
Inventors: 增田彻
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-08-24
Filing date: 2019-08-16
Publication date: 2024-04-12
Anticipated expiration: 2039-08-16
Also published as: CN112639870A; KR20210049783A; US20210192680A1; WO2020040061A1

Abstract

根据本公开的图像处理装置(100)包括：学习数据准备单元(132)，其对以目标作为被摄体的图像数据执行投影变换，并且准备以目标作为正确应答数据的学习数据；以及模型生成单元(133)，其基于由学习数据准备单元(132)准备的学习数据，生成学习模型，所述学习模型用于在宽视角图像作为输入数据被输入时检测所述输入数据中所包含的目标，所述宽视角图像是使用与学习数据相同的投影变换方法创建的。

Description

图像处理装置、图像处理方法和图像处理程序

技术领域

本公开涉及图像处理装置、图像处理方法和图像处理程序。具体地，本公开涉及检测视频数据中的被摄体的处理。

背景技术

随着图像捕获设备的广泛使用，图像已被广泛使用，例如，许多用户捕获静止图像和运动图像并且将捕获的图像上传到网络上。这些图像的使用可能需要删除图像中捕获的未指定数目的人或者不适合作为被摄体的预定目标。

作为与这种图像有关的技术，已经提出了以下技术：从其中捕获了对于图像捕获人而言非意图的目标的图像中检测该目标，并且删除该目标或者用另一对象替换该目标(例如，非专利文献1)。注意，存在的图像不限于由普通摄像装置等拍摄的图像，并且因此包括各自具有比显示器上显示的视角宽的视角的图像(在下文中统称为“宽视角图像”)，诸如要在例如虚拟现实(VR)技术(例如，非专利文献2)中使用的球形内容(球形图像或球形运动图像)和全景图像。

引用列表

非专利文献

非专利文献1：Guilin Liu，Fitsum A.Reda，Kevin J.Shih，Ting-Chun Wang，Andrew Tao，Bryan Catanzaro的“Image Inpainting for Irregular Holes UsingPartial Convolutions”(“使用部分卷积进行的不规则孔的图像修复”)。

非专利文献2：“Information technology-Coded representation of immersivemedia-Part 2:Omnidirectional media format”(“信息技术-沉浸媒体的编码表示-第2部分：全向媒体格式”)，ISO/IEC FDIS 23090-2。

发明内容

技术问题

然而，使用上述传统技术，在某些情况下无法准确地检测目标。通常，要执行的目标检测处理包括：生成通过学习要检测的目标(正确数据)的特征量而获得的学习模型，将图像的数据等输入到所生成的学习模型中，以及确定目标是否被包括在图像中。

然而，诸如球形内容的宽视角图像以等距柱状投影方案等投影变换的格式来记录，因此目标被拉伸或者目标与图像的每个边缘部分接触。在这种情况下，要检测的对象的特征量(例如形状)与正确数据明显不同，因此可能无法使用与通过通常的透视投影获得的二维图像对应的学习模型来检测目标。

因此，本公开提出了使得能够准确地检测目标的图像处理装置、图像处理方法和图像处理程序。

问题的解决方案

为了解决上述问题，图像处理装置包括：学习数据创建单元，其被配置成对包括作为被摄体的目标的图像数据执行投影变换，创建包括作为正确数据的目标的学习数据；以及模型生成单元，其被配置成基于由学习数据创建单元创建的学习数据，生成学习模型，该学习模型用于检测包括宽视角图像的、被输入到学习模型的输入数据中所包括的目标，该宽视角图像是通过与用于创建学习数据的投影变换的方案相同的投影变换创建的。

附图说明

图1示出了根据本公开的第一实施例的图像处理的概况。

图2是示出根据本公开的第一实施例的图像处理系统的示例的图。

图3示出了根据本公开的第一实施例的图像数据存储单元的示例。

图4示出了根据本公开的第一实施例的学习数据存储单元的示例。

图5示出了用等距柱状投影方案来投影变换的示例性内容。

图6示出了宽视角图像与用户的视点之间的关系。

图7是根据本公开的第一实施例的创建处理的说明图(1)。

图8是根据本公开的第一实施例的创建处理的说明图(2)。

图9说明性地示出了根据本公开的第一实施例的生成处理。

图10说明性地示出了根据本公开的创建处理和生成处理的流程。

图11是示出根据本公开的第一实施例的处理过程的流程图(1)。

图12是示出根据本公开的第一实施例的处理过程的流程图(2)。

图13是示出根据本公开的第一实施例的处理过程的流程图(3)。

图14示出了根据本公开的第二实施例的图像处理的概况。

图15是实现图像处理装置的功能的计算机的示例的硬件配置图。

具体实施方式

在下文中，将参照附图详细描述本公开的实施例。注意，在下面的每个实施例中，相同的附图标记被分配给相同的部分，并且将省略其重复描述。

(1.第一实施例)

[1-1.宽视角图像的使用]

在描述根据本公开的图像处理之前，将描述宽视角图像的使用(例如，再现宽视角图像或者将宽视角图像分发给用户)中的问题，作为本公开的图像处理的前提。

注意，根据本公开的宽视角图像是诸如球形内容和全景图像的具有比显示器上显示的视角宽的视角的图像。在本公开中，球形内容将作为宽视角图像的示例进行描述。

通过用能够在所有方向上以360°拍摄的球形摄像装置进行拍摄来生成球形内容。球形内容的视角比通常的显示器(例如，安装在用户上的头戴式显示器(HMD))的视角宽，因此，根据显示器的尺寸(换言之，用户的视野角度)剪切了仅部分区域。例如，用户在通过操作触摸显示器来改变显示位置的同时，或者在通过经由所安装的HMD施加用户的视线或姿势的改变来改变显示位置的同时，观看球形内容。

这里，通过在所有方向上以360°进行拍摄来生成球形内容，因此容易出现非意图的被摄体被反映到球形内容中的情况，特别是在户外拍摄时更是如此。例如，在被摄体包括未指定数目的人的情况下，可能发生诸如肖像权的问题。此外，例如，甚至在被摄体包括公司的徽标、商标等的情况下，可能限制对捕获了该被摄体的球形内容的使用。

为了避免上述问题，内容创建者人为地指定在图像数据中捕获的特定目标(例如，未指定数目的人或徽标)，并且对指定目标执行诸如马赛克的效果处理。然而，执行诸如马赛克的效果处理可能会破坏作为球形内容的特征之一的沉浸感。

响应于以上问题，在一些情况下，对通常的静止图像和运动图像执行包括以下步骤的处理：通过对特定目标的特征量的机器学习来自动检测目标，删除(掩蔽)检测到的目标，然后用可以自然显示的替换物替换删除的目标。

然而，例如以等距柱状投影方案投影的格式来记录诸如球形内容的宽视角图像，因此目标在极点附近被拉伸，或者目标位于图像的每个边缘部分处。因此，在执行上述方法的情况下，需要重复以下步骤：内容创建者指定预定视角的部分区域，在将指定区域变换为透视投影之后执行检测和替换处理，以及对另一区域执行类似处理。因此，这种方法存在以下问题：由于重复投影变换，导致增加处理负荷并且图像质量劣化。

因此，为了解决上述问题，根据本公开的图像处理包括：对包括作为被摄体的预定目标的数据图像执行与要输入到学习模型(在下文中简称为“模型”)中的输入数据对应的投影变换，以及创建要用于该模型的学习的学习数据。此外，根据本公开的图像处理包括：基于所创建的学习数据，生成用于检测包括在作为球形内容的输入数据中的预定目标的模型。使用根据本公开的图像处理，使用以与用于球形内容的投影方案(例如，等距柱状投影方案)对应的学习数据学习的模型执行检测，使得可以在不对球形内容执行透视投影变换的情况下检测目标。在下文中，将参照图1描述根据本公开的图像处理的概述。注意，在本公开中，将描述以下示例：目标的一个示例是“未指定数目的人的脸部”。

[1-2.根据第一实施例的图像处理的概述]

图1所示的图像处理装置100是执行根据本公开的图像处理的信息处理装置。图像处理装置100例如是为用户提供球形内容的图像服务器。

在图1所示的示例中，图像处理装置100保存基于存储在学习数据存储单元122中的学习数据145而生成的检测模型150和替换模型160。如下面将详细描述的，学习数据145是通过对用于学习的每个脸部图像集(使用通常的透视投影方案获得的图像)执行与用于球形内容的投影方案(格式)对应的投影而获得的图像集。例如，对于用于学习的一个脸部图像，图像处理装置100使用等距柱状投影方案生成图像，在等距柱状投影方案中，这些图像在俯仰方向、侧倾方向和横摆方向上分别具有不同的角度。在下文中，所生成的脸部图像中的每一个可以被称为“变形脸部图像”，因为脸部由于等距柱状投影而变形。

即，图像处理装置100使用作为变形脸部图像的集合的学习数据145执行学习，而不是使用用于对于通常的透视投影方案进行学习的脸部图像集来执行学习。然后，图像处理装置100生成用于确定输入数据是否包括指示“人脸”的特征量的检测模型150。此外，图像处理装置100生成用于替换检测到的脸部图像的替换模型160。

在图1的示例中，图像处理装置100接受使用等距柱状投影方案存储的球形内容50(步骤S1)。球形内容50包括未指定数目的人的脸部60。

图像处理装置100将所接受的球形内容50输入到检测模型150中(步骤S2)。结果，图像处理装置100检测包括在球形内容50中的每个脸部60。此外，图像处理装置100将球形内容50输入到替换模型中，并且用具有与脸部60的特征量相似的特征量的脸部数据来替换脸部60。注意，图像处理装置100可以仅替换脸部60的一部分(例如，眼睛)而不是替换整个脸部60。作为示例，图像处理装置100基于具有与脸部60的角度信息相似的角度信息的学习数据145内的多个图像中的各部分的特征量的平均值，替换脸部60的一部分。

然后，图像处理装置100生成用脸部61替换了脸部60的球形内容51。然后，图像处理装置100输出球形内容51(步骤S3)。例如，作为分发给用户的球形内容，图像处理装置100分发替换成了脸部61的球形内容51而不是球形内容50。结果，图像处理装置100可以防止以下情况：用户观看在球形内容50中错误地捕获的脸部60。此外，图像处理装置100对使用等距柱状投影方案存储的球形内容50进行检测和替换处理，而无需花费时间和精力例如对球形内容50执行透视投影变换。结果，图像处理装置100可以防止球形内容50的图像质量劣化，并且可以快速地执行处理。

[1-3.根据第一实施例的图像处理系统的配置]

随后，将参照图2和后续附图详细描述根据本公开的图像处理装置100和根据本公开的图像处理系统1。

图2是示出根据本公开的第一实施例的图像处理系统1的示例的图。如图2所示，图像处理系统1包括HMD 10、数据服务器200和图像处理装置100。

HMD 10是要安装在用户的头部上的显示装置，并且是所谓的可穿戴式计算机。HMD10响应于用户的身体的定向和移动、用户的移动速度等来实现显示处理。

数据服务器200是通过有线或无线网络连接到图像处理装置100和HMD 10的信息设备。数据服务器200是累积用于学习的图像数据并且将所累积的图像数据提供给图像处理装置100的存储服务器。此外，数据服务器200可以是将诸如运动图像的内容提供给使用HMD 10的用户的服务服务器。

如上所述，图像处理装置100是信息处理装置，该信息处理装置创建与要作为检测处理的目标的球形内容对应的学习数据，并且基于所创建的学习数据来生成模型。图像处理装置100例如将将要分发给用户的球形内容输入到检测模型中，检测球形内容中包括的未指定数目的人的脸部，并且替换或删除每个检测到的脸部。然后，图像处理装置100将已经进行了替换处理等的球形内容分发给用户。

如图2所示，图像处理装置100包括通信单元110、存储单元120和控制单元130。注意，图像处理装置100可以包括用于接受来自管理图像处理装置100的管理员等的各种操作的输入单元(例如，键盘或鼠标)以及用于显示各种类型的信息的显示单元(例如，液晶显示器)。

通信单元110例如通过网络接口卡(NIC)来实现。通信单元110以有线或无线方式连接到网络N(例如，因特网)，并且经由网络N在数据服务器200、HMD 10等之间交换信息。

存储单元120例如由诸如随机存取存储器(RAM)或闪存的半导体存储元件或者诸如硬盘或光盘的存储装置实现。存储单元120包括图像数据存储单元121、学习数据存储单元122和模型存储单元123。在下文中，将按以上顺序描述每个存储单元。

图像数据存储单元121存储图像数据，作为由图像处理装置100创建的学习数据的原件。图像数据的原件例如是作为用于机器学习的正确数据的样本而分发的脸部图像数据。这种用于机器学习的脸部图像数据是例如下述数据：在该数据中，用作图像的正确答案的标签(例如，指示图像的被摄体是人的脸部的信息)被添加到图像数据。注意，正确的标签可以包括作为被摄体的人的属性信息(例如，作为被摄体的人的种族、年龄或性别)。

图3示出了根据第一实施例的图像数据存储单元121的示例。图3是根据本公开的第一实施例的图像数据存储单元121的示例。在图3所示的示例中，图像数据存储单元121具有诸如“图像ID”、“图像数据”和“部位信息”的项目。

“图像ID”指示用于标识图像的标识信息。“图像数据”指示构成图像的图像的实际数据。例如，实际数据包括构成图像的像素数、每个像素的颜色信息等。注意，在图3中，图像数据的项目由诸如“B01”的概念表示；然而，实际上，图像数据的项目存储关于像素的详细数据。

“部位信息”指示关于脸部图像中包括的每个部位的信息。例如，部位信息包括指示被摄体的眼睛、鼻子或嘴巴的位置的位置信息(指示图像中的哪个位置(像素)指示该部位的信息)、颜色信息等。注意，在图3中，指示眼睛、鼻子和嘴巴的部位信息的项目的各个数据由诸如“C01”、“D01”和“E01”的概念表示；然而，实际上，每个项目存储与该项目对应的具体信息。例如，眼睛的项目存储与人的眼睛对应的像素的位置信息(例如，认为在图像中指示眼睛的区域的信息)、每个像素的颜色信息等。

此外，在图3的示例中，指示了关于眼睛、鼻子和嘴巴的信息作为部位信息；然而，部位信息不限于该示例。例如，图像数据存储单元121可以存储人脸的眉毛、耳朵等的位置信息、颜色信息等。另外，存储在预先分发的用于学习的脸部图像数据中的信息可以用作部位信息，或者部位信息可以是人为设置的信息。

即，作为存储在图像数据存储单元121中的数据的示例，图3示出了由图像ID“A01”标识的图像具有图像数据“B01”以及作为各个部位信息的用于眼睛的“C01”、用于鼻子的“D01”、用于嘴巴的“E01”。注意，尽管在图3中未示出，但是脸部图像可以包括作为被摄体的人的诸如种族、年龄、性别或肤色的属性信息。

接下来，将描述学习数据存储单元122。学习数据存储单元122存储使用存储在图像数据存储单元121中的原始图像来创建的、与要输入到模型中的宽视角图像的投影方案对应的学习数据。换言之，学习数据存储单元122将通过与要输入到模型中的宽视角图像的投影方案相同的投影方案获得的图像数据组存储为学习数据。

图4示出了根据本公开的第一实施例的学习数据存储单元122的示例。在图4所示的示例中，学习数据存储单元122具有诸如“图像ID”、“学习数据ID”、“图像数据”、“角度信息”和“变换后部位信息”的项目。

“图像ID”指示用于标识图像的标识信息，并且对应于图3所示的相同项目。“学习数据ID”指示用于标识每个学习数据的标识信息。“图像数据”指示学习数据中包括的构成图像的实际数据。这些项目与图3所示的相同项目一一对应。

“角度信息”指示关于在每个学习数据中设置的角度的信息。如图1所示，学习数据包括各自通过等距柱状投影方案对原始脸部图像进行投影变换而获得的、例如通过针对俯仰、侧倾和横摆元素中的每一个改变1°而创建的图像。因此，每个学习数据具有下述角度信息：该角度信息指示角度从原始脸部图像的角度偏离多少(例如，具有0°的俯仰、0°的侧倾和0°的横摆的状态)。例如，具有45°的俯仰的学习数据是这样的图像：在该图像中，脸部从原始脸部图像在俯仰方向上(在该图像中为向上)偏移了45°。另外，学习数据包括由于对从图像的中心偏移的原始脸部进行投影变换而变形的脸部。例如，使用等距柱状投影方案，当原始脸部较靠近图像的上边缘或下边缘部分时(当俯仰角接近90°或-90°时)，变换后的脸部会横向拉伸。结果，学习数据包括变形脸部图像。

“俯仰”、“侧倾”和“横摆”各自指示原始图像的被摄体偏移的方向。俯仰指示二维图像中的纵向。例如，关于俯仰方向，将图像的纵向上的中心定义为0°，图像的上边缘部分指示90°，并且图像的下边缘部分指示-90°。另外，侧倾指示二维图像中的旋转。例如，关于侧倾方向，将初始状态下的脸部图像定义为0°并且将360°定义为一圈，角度随着顺时针旋转的偏移的量的增大而增大。另外，横摆指示二维图像中的横向方向。例如，关于横摆方向，将图像的横向方向上的中心定义为0°并且将180°定义为一周，角度随着向右偏移的量的增大而增大。例如，当位于中心的脸部到达相反状态(脸部图像在横向上被均等地分开的状态)时，横摆角为180°。

“变换后部位信息”例如指示投影变换后脸部的各部位的位置信息。图4将变换后部位信息示出为一个项目；然而，变换后信息包括例如眼睛、鼻子和嘴巴的各个位置信息。注意，如果已知原始脸部图像的部位信息，则通过计算下述数值(坐标)来获得变换后部位信息，所述数值指示例如在对脸部信息进行投影变换之后原始像素被移动到的位置。

即，作为存储在学习数据存储单元122中的数据的示例，图4示出了根据使用图像ID“A01”标识的图像来创建使用学习数据ID“F01”、“F02”和“F03”一对一标识的各个学习数据。此外，使用学习数据ID“F01”标识的学习数据指示图像数据“G01”、俯仰“0°”、侧倾“0°”、横摆“0°”以及变换后部位信息“H01”。注意，尽管未在图4中示出，但是类似于原始图像数据，学习数据可以包括诸如作为被摄体的人的种族、年龄、性别或肤色等的属性信息。

接下来，将描述模型存储单元123。模型存储单元123存储由图像处理装置100生成的学习模型。例如，模型存储单元123存储检测模型150和替换模型160。

注意，模型存储单元123可以存储多种类型的检测模型150和多种类型的替换模型160。例如，模型存储单元123根据要输入到这些模型中的宽视角图像的格式(投影方案)来存储多个不同的检测模型150和多个不同的替换模型160。此外，如下面将详细描述的，当替换脸部时，模型存储单元123用与检测到的脸部的角度对应的图像执行替换，并且因此存储基于角度生成的多个替换模型160。

返回来参照图2，将继续进行说明。通过执行作为工作区域的随机存取存储器(RAM)等中的、存储在图像处理装置100中的程序(例如，根据本公开的图像处理程序)的中央处理单元(CPU)、微处理单元(MPU)等来实现控制单元130。此外，控制单元130是控制器，并且例如可以通过诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)的集成电路来实现。

如图2所示，控制单元130包括获取单元131、学习数据创建单元132、模型生成单元133、接受单元134、检测单元135和发送单元136，并且实现或执行如下所述的信息处理的功能和动作。注意，控制单元130的内部配置不限于图2所示的配置，因此，如果使用其他配置来执行下述的图像处理，则控制单元130的内部配置可以是另一配置。

获取单元131经由例如有线或无线网络获取各种类型的信息。例如，获取单元131从数据服务器200获取作为学习数据的原件的图像数据。

例如，获取单元131获取包括作为被摄体的人的图像数据。更具体地，获取单元131获取包括作为被摄体的人的脸部的图像数据。此时，获取单元131可以获取脸部图像数据，该脸部图像数据包括例如关于脸部在图像中占据的区域、脸部的各部位在图像中占据的区域的信息以及诸如人的种族、性别或年龄等的属性信息。例如，获取单元131从提供用于机器学习的材料的数据服务器200等获取其中设置了多个脸部图像的图像数据组。替选地，获取单元131可以通过爬行网络来收集脸部图像数据，并且可以获取所收集的脸部图像数据。

学习数据创建单元132对具有作为被摄体的预定目标的图像数据执行预定投影变换，并且创建包括作为正确数据的预定目标的学习数据。具体地，学习数据创建单元132对包括作为被摄体的预定目标的图像数据执行与要输入到模型中的输入数据对应的投影变换，并且创建要用于该模型的学习的学习数据。

例如，学习数据创建单元132根据包括作为预定目标的人脸的被摄体的图像数据创建学习数据。注意，学习数据创建单元132可以根据其中设置了人脸中包括的每个部位的位置信息的图像数据创建学习数据。结果，学习数据创建单元132可以创建如下学习数据：该学习数据用于从图像数据中检测人脸以及生成可以检测诸如人眼和鼻子等部位的位置的模型。

例如，学习数据创建单元132接受关于被要生成的模型当作目标的宽视角图像的投影方案的设置，使用与所接受的投影方案相同的投影方案对原始图像数据进行变换，并且创建学习数据。

具体地，学习数据创建单元132从被摄体的初始状态改变被摄体的角度，对与改变后的角度对应的图像数据执行投影变换，并且创建学习数据。结果，学习数据创建单元132可以创建用于生成下述模型的学习数据：甚至对于包括变形的人的脸部的输入数据，该模型也能够直接执行检测处理，而无需在检测处理之前执行诸如透视投影的变换处理。

更具体地，学习数据创建单元132改变被摄体在俯仰方向、侧倾方向和横摆方向上的各个角度，对与改变后的角度对应的图像数据执行投影变换，并且创建学习数据。例如，学习数据创建单元132将俯仰方向、侧倾方向和横摆方向上的各个角度改变1°，并且创建与改变后的角度对应的图像组。结果，学习数据创建单元132可以根据一个原始图像获得在俯仰方向上不同的180个图像的学习数据集、针对第一学习数据集中的每个图像获得在侧倾方向上不同的180个图像的学习数据集、以及针对这些学习数据集中的每个图像获得在横摆方向上不同的180个图像的学习数据集。

注意，关于横摆方向，学习数据创建单元132可以创建仅包括被摄体与图像边框接触的范围的学习数据。这是因为在等距柱状投影方案中，在不接触图像边框的情况下简单地平移(横摆角改变)的被摄体的特征量是被复制的。换言之，学习数据创建单元132可以创建仅包括其中被摄体被分为两个并且与左右边缘部分接触的图像的学习数据。即，如果被摄体未与图像边框接触，则学习数据创建单元132不需要创建仅横摆角改变的学习数据。具体地，学习数据创建单元132可以在从被摄体开始接触图像边框的状态到被摄体远离图像边框的状态的范围内改变横摆方向上的角度的同时创建学习数据。结果，学习数据创建单元132可以减轻创建学习数据的处理负荷。

注意，如果已知图像中被摄体(被识别为被摄体的对象)所占据的区域，则学习数据创建单元132可以确定被摄体是与图像边框接触(在图像的左右边缘部分处)还是远离图像边框。

如上所述，学习数据创建单元132从被摄体的初始状态改变被摄体的角度，对与改变后的角度对应的图像数据执行投影变换，并且创建学习数据。即，学习数据创建单元132创建基于被摄体角度的学习数据集。作为示例，当根据10000个原始图像数据创建学习数据时，学习数据创建单元132可以创建具有例如90°的俯仰、45°的侧倾和160°的横摆的10000个学习数据。学习数据创建单元132还可以创建91°的俯仰角、45°的侧倾角和160°的横摆角的10000个学习数据。以下描述的模型生成单元133使用这种方式的基于角度的学习数据，基于角度来生成替换模型。

这里，将参照图5至图8在视觉上描述由学习数据创建单元132创建的学习数据的细节。图5示出了使用等距柱状投影方案来进行投影变换的示例性内容。

图5所示的内容70是例如由全向摄像装置捕获的图像。如图5所示，内容70具有球形形状，并且这种状态不适合于分发给HMD 10或者在HMD 10上再现。因此，通常，内容70以预定投影方案进行投影变换，并且变换为适合于分发或再现的格式。

图5中所示的内容71是通过用等距柱状投影方案对内容70执行投影变换而获得的图像。在等距柱状投影方案中，原始图像的纬度(竖直方向)和经度(水平方向)分别被直接变换为经变换的图像的纬度(竖直方向)和经度(水平方向)。因此，经变换的图像在竖直方向上的中心线上具有等距，并且在竖直方向上的位置(纬度)具有等距；然而，图像中的对象在球形的极点附近被拉伸(变形)。

内容70和内容71均包括人脸。注意，尽管要由图像处理装置100实际使用的原始图像在一个图像中包括一个脸部，但是为了说明起见，图5的示例示出了各自包括多个脸部的内容70和内容71。

如图5所示，位于内容70的纬度的中心处的脸部72在内容71上保持几乎准确的形状。另一方面，在内容70中位于比脸部72更高纬度的脸部73在内容71上具有下述形状：该形状的部分在内容71上位于越高的纬度，该部分越变形。此外，在内容70中位于比脸部73更高的纬度(距极点更近)的脸部74在内容71上具有比脸部73更变形的形状。

学习数据创建单元132如上所述地学习具有变形形状的脸部，从而创建变形脸部图像作为学习数据。如上所述，学习数据创建单元132改变对原始图像设置的角度，并且通过对经改变的图像执行投影变换来获得变形脸部图像。

这里，将参照图6描述诸如内容70的宽视角图像与用户的视点之间的关系。图6示出了宽视角图像与用户的视点之间的关系。注意，在图6的示例中，将描述球面内容作为宽视角图像的示例。

如图6所示，通过使用仰角φ、旋转角Ψ和方位角θ来表示球形内容处的用户的视点。仰角φ是在将图6所示的3D模型坐标系的XZ平面定义为参考平面的情况下纵向方向上的角度。此外，旋转角Ψ是指示在图6所示的3D模型坐标系中围绕用户的视线的旋转方向的角度。此外，方位角θ是在作为图6中所示的3D模型坐标系的水平面的XZ平面上距预定基准轴的角度。在本公开中，仰角φ、旋转角Ψ和方位角θ分别对应于俯仰方向上的角度、侧倾方向上的角度和横摆方向上的角度。

随后，将参照图7描述由学习数据创建单元132创建的变形脸部图像。图7是根据本公开的第一实施例的创建处理的说明图(1)。

图7在视觉上示出了对由学习数据创建单元132创建的每个变形脸部图像设置的角度以及实际创建了哪些种的变形脸部图像。首先，图7示出了下述示例：学习数据创建单元132在改变俯仰方向上的角度和侧倾方向上的角度的同时创建每个变形脸部图像。

例如，学习数据创建单元132读取作为初始状态具有俯仰方向上的0°的角度和侧倾方向上的0°的角度的图像，并且创建变形脸部图像77。变形脸部图像77中包括几乎没有变形的形状。

此后，学习数据创建单元132在将原始图像的俯仰方向上的角度每改变1°的同时顺序地创建变形脸部图像。图7所示的变形脸部图像78是根据具有俯仰方向上的45°的角度和侧倾方向上的0°的角度的图像来创建的变形脸部图像。包括在变形脸部图像78中的脸部的形状对应于例如图5所示的脸部72的形状，并且随着脸部越靠近上极点而具有越大的变形。另一方面，图7所示的变形脸部图像79是根据具有俯仰方向上的-45°的角度和侧倾方向上的0°的角度的图像来创建的变形脸部图像。包括在变形脸部图像79中的脸部的形状在该脸部的一部分位于与包括在变形脸部图像78中的脸部的形状相反的方向(向下方向)上(更接近于下极点的位置)的情况下具有较大的变形。

学习数据创建单元132在针对俯仰方向上的所有角度创建了变形脸部图像之后，将这些变形脸部图像设置为学习数据的一个集合，并且进一步创建改变了侧倾方向上的角度的变形脸部图像。

图7所示的变形脸部图像80是根据具有俯仰方向上的0°的角度和侧倾方向上的45°的角度的图像来创建的变形脸部图像。包括在变形脸部图像80中的脸部的形状顺时针偏移了45°，因此发生一些变形。学习数据创建单元132针对与俯仰方向上的所有角度对应的每个变形脸部图像集，针对侧倾方向上的所有角度创建变形脸部图像。图7所示的变形脸部图像81是根据具有俯仰方向上的0°的角度和侧倾方向上的359°的角度的图像来创建的变形脸部图像。

以这种方式，学习数据创建单元132创建与所有角度对应的变形脸部图像，因此学习数据创建单元132可以创建下述数据：该数据用于准确地学习利用了与对变形脸部图像执行的投影变换相似的投影变换的图像中所包括的脸部的特征量。例如，对于以接近90°或-90°的俯仰角存在并且通常难以被识别为人脸的对象，学习数据创建单元132可以创建指示该对象的特征量的学习数据。

随后，将参照图8描述改变了横摆方向上的角度的每个变形脸部图像。图8是根据本公开的第一实施例的创建处理的说明图(2)。图8从视觉上示出了学习数据创建单元132创建的变形脸部图像中的下述变形脸部图像：由于横摆方向上的角度的改变，导致这些变形脸部图像各自包括被分开并且被呈现在图像的左右边缘部分处的脸部。

图8所示的变形脸部图像86是根据具有俯仰方向上的0°的角度、侧倾方向上的0°的角度和横摆方向上的180°的角度的图像来创建的变形脸部图像。注意，在本公开中，具有横摆方向上的180°的角度指示原始图像的竖直方向上的中心线已经恰好移动到图像的右边缘部分。因此，包括在变形脸部图像86中的脸部88在变形脸部图像86的左边缘部分和右边缘部分恰好被分为两部分。

注意，针对在俯仰方向和侧倾方向上的角度不同的变形脸部图像，学习数据创建单元132创建各自具有横摆方向上的180°的角度的变形脸部图像。例如，图8所示的变形脸部图像87是根据具有俯仰方向上的0°的角度、侧倾方向上的45°的角度和横摆方向上的180°的角度的图像来创建的变形脸部图像。

此外，学习数据创建单元132在将原始图像的横摆方向上的角度每改变1°的同时顺序地创建变形脸部图像。图8所示的变形脸部图像90是具有俯仰方向上的0°的角度、侧倾方向上的0°的角度和横摆方向上的180°的角度的变形脸部图像。在这种情况下，包括在变形脸部图像90中的脸部88在变形脸部图像90的右边缘部分中占据的区域比在变形脸部图像90的左边缘部分中占据的区域宽。

注意，对于在横摆方向上的角度不同的图像，学习数据创建单元132可以创建改变了所有角度的变形脸部图像，或者可以创建在从脸部88开始接触右边缘部分或左边缘部分的状态到脸部88远离边缘部分的状态的范围内的变形脸部图像。即，学习数据创建单元132仅创建可以使用其来学习已经被分开的脸部88的各个特征量的变形脸部图像，而不需要创建各自包括未被分开的脸部88的变形脸部图像。

如上所述，学习数据创建单元132根据原始图像来创建在改变俯仰方向、侧倾方向和横摆方向上的各个设置的同时经过投影变换的变形脸部图像，作为学习数据。

返回来参照图2，将继续进行说明。模型生成单元133基于由学习数据创建单元132创建的学习数据，生成学习模型，该学习模型用于检测包括宽视角图像的、被输入到学习模型的输入数据中所包括的预定目标，其中该宽视角图像是通过与用于创建学习数据的投影变换的方案相同的投影变换创建的。具体地，模型生成单元133基于由学习数据创建单元132创建的学习数据，生成用于检测包括在作为宽视角图像的输入数据中的预定目标的模型(检测模型150)。

例如，模型生成单元133基于投影变换的类型来生成彼此不同的多个检测模型150。具体地，在要作为脸部检测的目标的球形内容是通过等距柱状投影方案进行变换而获得的图像数据的情况下，模型生成部133使用通过等距柱状投影方案进行变换而获得的图像数据，生成与等距柱状投影方案对应的检测模型150。

此外，模型生成单元133可以基于由学习数据创建单元132创建的学习数据，生成替换模型160，该替换模型160用于全部或部分替换由下述检测单元135检测到的预定目标。

例如，基于由学习数据创建单元132基于角度创建的学习数据，模型生成单元133基于角度生成彼此不同的多个替换模型。结果，模型生成单元133可以根据检测到的被摄体的角度来替换图像，从而可以执行自然的替换而不会出现外观上的不适。

将参照图9描述该生成处理。图9示意性地示出了根据本公开的第一实施例的生成处理。

如图9所示，模型生成单元133通过基于学习数据145学习变形脸部图像的各个特征量来生成检测模型150。

模型生成单元133还利用学习数据146、学习数据147或学习数据148生成替换模型160。学习数据146是例如根据原始图像创建的变形脸部图像的学习数据集，并且对于每个变形脸部图像，设置了45°的俯仰角、45°的侧倾角和0°的横摆角。学习数据147是例如根据原始图像创建的变形脸部图像的学习数据集，并且对于每个变形脸部图像，设置了0°的俯仰角、0°的侧倾角和0°的横摆角。学习数据148是例如根据原始图像创建的变形脸部图像的学习数据集，并且对于每个变形脸部图像，设置了-45°的俯仰角、45°的侧倾角和0°的横摆角。

例如，模型生成单元133学习基于角度的学习数据146的特征量，并且生成基于角度的替换模型161。例如，当检测模型150所检测到的脸部指示了与具有45°的俯仰角、45°的侧倾角和0°的横摆角的脸部相似的特征量时，基于角度的替换模型161基于学习数据146来计算用于脸部替换的数据(例如，包括在学习数据146中的脸部的特征量的平均值)，并且执行脸部替换处理。类似地，模型生成单元133学习基于角度的学习数据147的特征量，生成基于角度的替换模型162，学习基于角度的学习数据148的特征量，并且生成基于角度的替换模型163。结果，甚至在检测到变形脸部的情况下，模型生成单元133也可以生成用于执行与变形对应的自然的替换的模型。

此外，模型生成单元133可以生成用于根据检测到的目标的属性信息来替换图像的模型。例如，在目标是人脸的情况下，基于检测到的人的脸部的特征量，图像处理装置100可以估计人的种族、性别或年龄。在这种情况下，模型生成单元133可以生成下述模型，该模型使得缩小学习数据中的人的估计种族、性别、年龄等，从缩小的学习数据中获得例如特征量的平均，并且使用所获得的平均进行替换。

此外，模型生成单元133可以生成用于替换检测到的脸部的仅一部分而不是整个替换检测到的脸部的模型。例如，模型生成单元133基于基于角度的学习数据来学习指示人的眼睛的部位的特征量。然后，在输入数据中检测到脸部的情况下，模型生成单元133可以生成使用例如各自通过仅学习检测到的脸部中包括的眼睛而获得的特征量的平均值来进行替换的模型。结果，模型生成单元133可以生成可以执行更自然的替换处理的替换模型(例如，替换之前和之后瞳孔颜色是共同的)。

这里，将参照图10描述由学习数据创建单元132和模型生成单元133执行的信息处理的流程。图10示意性地示出了根据本公开的创建处理和生成处理。为了说明起见，图10示出了学习数据创建单元132包括投影位置确定单元132A和投影变换单元132B这两个处理单元。还示出了模型生成单元133包括检测模型生成单元133A和替换模型生成单元133B这两个处理单元。

首先，学习数据创建单元132参考图像数据存储单元121，并且读取图像数据140作为学习数据的原件。

对于一个图像数据，投影位置确定单元132A从一个图像数据的初始状态开始创建角度逐步改变的图像数据。例如，投影位置确定单元132A创建俯仰角增大1°的一个图像数据。然后，投影位置确定单元132A将所创建的一个图像数据发送到投影变换单元132B。

投影变换单元132B以预设的投影变换方案对从投影位置确定单元132A发送的一个图像数据执行投影变换。投影变换单元132B将经投影变换的图像数据(学习数据)存储在学习数据存储单元122中。

此后，针对相同的图像数据，投影位置确定单元132A创建角度进一步改变的图像数据。例如，投影位置确定单元132A创建俯仰角进一步增大1°的一个图像数据。然后，投影位置确定单元132A将所创建的一个图像数据发送到投影变换单元132B。投影变换单元132B以与上述类似的投影变换方案对从投影位置确定单元132A发送的一个图像数据执行投影变换。投影变换单元132B将经投影变换的图像数据(学习数据)存储在学习数据存储单元122中。

投影位置确定单元132A和投影变换单元132B重复上述处理，并且根据一个原始图像数据创建在逐步改变角度的同时经投影变换的学习数据集。此外，投影位置确定单元132A从图像数据存储单元121顺序地获取用于学习的多个图像数据，并且重复上述处理。

在创建了学习所需的足够的学习数据集之后，模型生成单元133参考学习数据存储单元122并且读取学习数据145。

检测模型生成单元133A基于学习数据145中包括的变形脸部图像，学习指示对应的变形脸部的每个特征量，并且生成用于从任何输入数据中检测变形脸部的检测模型150。

替换模型生成单元133B学习包括在学习数据145中的基于角度的变形脸部图像的各个特征量，并且生成替换模型160，该替换模型160用于执行以特征量的平均值替换检测到的脸部的替换处理。

注意，由检测模型生成单元133A和替换模型生成单元133B执行的学习方法可以是任何已知的学习方法。例如，检测模型生成单元133A和替换模型生成单元133B可以使用深度神经网络等生成模型。替选地，检测模型生成单元133A和替换模型生成单元133B可以使用诸如支持向量机、聚类和强化学习的各种学习算法来生成模型。

返回来参照图2，将继续进行说明。接受单元134接受各种类型的信息。例如，接受单元134接受要作为检测处理的目标的宽视角图像。例如，在数据服务器200向HMD 10分发宽视角图像的情况下，接受单元134在分发之前接受宽视角图像，以预先验证在宽视角图像中是否捕获了不合适的被摄体。接受单元134将所接受的宽视角图像发送到作为后续处理单元的检测单元135。

检测单元135使用由模型生成单元133生成的学习模型(具体地，检测模型150)从输入数据中检测预定目标。

例如，检测单元135从模型生成单元133生成的多个检测模型150中选择与对输入数据执行的投影变换的类型对应的检测模型150，并且使用所选择的检测模型150检测预定目标。具体地，在由接受单元134接受的宽视角图像是利用等距柱状投影方案存储的图像的情况下，检测单元135选择基于经过了使用等距柱状投影方案进行的投影变换的学习数据而生成的检测模型150。然后，检测单元135将使用等距柱状投影方案创建的宽视角图像输入到所选择的检测模型150中，并且检测是否存在预定目标(例如，人的脸部)。

此外，检测单元135从模型生成单元133生成的多个替换模型160中选择与从输入数据中检测到的预定目标对应的替换模型160，并且用所选择的替换模型160来替换预定目标。

例如，检测单元135计算在输入数据中检测到的目标的角度信息(俯仰、侧倾和横摆)。可以根据例如检测到的目标的特征量获得这种计算。然后，检测单元135选择与检测到的目标的角度信息对应的替换模型160，并且使用所选择的替换模型160执行目标替换处理。

例如，检测单元135用例如基于角度的学习数据中包括的目标的特征量的平均值来执行对检测到的目标的替换。注意，在执行替换处理的情况下，检测单元135可以参考检测到的目标的特征量并且可以计算要被替换的图像以使得检测到的目标被替换而不会产生任何不适。

例如，在检测到的目标是人的情况下，不考虑检测到的目标的特征量的替换处理可能导致使用种族、性别或年龄明显不同的人进行替换。因此，检测单元135可以参考检测到的目标的特征量并且仅提取具有相似特征量的学习数据以减小与检测到的目标的差异，并且可以根据所提取的学习数据的平均值计算替换数据。注意，检测单元135不限于使用学习数据的平均值等，因此可以使用各种已知的计算方法来计算用于用虚拟人物替换检测到的目标的人的替换数据。

另外，检测单元135可以替换从输入数据检测到的预定目标中包括的一部分。具体地，在预定目标是人的情况下，检测单元135可以仅替换人的眼睛或鼻子。

发送单元136将已经由检测单元135进行了检测处理和替换处理的宽视角图像发送到HMD 10等。

[1-4.根据第一实施例的图像处理的过程]

接下来，将参照图11至图13描述根据第一实施例的图像处理的过程。图11是示出根据本公开的第一实施例的处理过程的流程图(1)。

如图11所示，首先，图像处理装置100参考图像数据存储单元121并且读取图像数据(步骤S101)。然后，图像处理装置100为图像数据设置初始角度(步骤S102)。例如，图像处理装置100设置0°的侧倾角、0°的横摆角和90°的俯仰角作为初始角度。

随后，图像处理装置100执行学习数据创建处理(步骤S103)。下面将参照图12描述创建处理的详细流程。

随后，图像处理装置100确定是否已经完成对图像数据存储单元121中的所有图像数据的读取(步骤S104)。在尚未完成对所有图像数据的读取的情况下(步骤S104；否)，图像处理装置100从图像数据存储单元121获取下一个图像数据(步骤S105)，并且读取其图像数据(步骤S101)。

另一方面，在已经完成了对所有图像数据的读取的情况下(步骤S104；是)，图像处理装置100基于所创建的学习数据来生成模型(步骤S106)。

接下来，将参照图12描述学习数据创建处理的过程。图12是示出根据本公开的第一实施例的处理流程的流程图(2)。图12所示的处理对应于图11所示的步骤S103的处理。

如图12所示，图像处理装置100对图像数据执行投影变换(步骤S201)。

然后，图像处理装置100将经变换的图像作为学习数据进行输出(步骤S202)。结果，图像处理装置100获得一个学习数据。例如，在对具有初始角度的图像数据进行投影变换的情况下，图像处理装置100获得具有0°的侧倾角、0°的横摆角以及90°的俯仰角的学习数据。

此后，图像处理装置100确定原始图像的设置角度是否满足“俯仰>-90°”(换言之，原始图像的设置角度是否满足俯仰≠-90°)(步骤S203)。在原始图像的设置角度满足“俯仰>-90°”的情况下(步骤S203；是)，图像处理装置100改变原始图像数据的俯仰角(步骤S204)。例如，图像处理装置100将俯仰角减小1°并且将俯仰角设置为89°。然后，图像处理装置100重复进行再读取改变了俯仰角的图像数据的处理(步骤S201)。

另一方面，在原始图像的设置角度不满足“俯仰>-90°”的情况下(步骤S203；否)，图像处理装置100结束对原始图像数据的俯仰的改变，将俯仰不同的图像数据设置为一个图像数据集，并且读取该图像数据集(步骤S205)。

然后，图像处理装置100确定原始图像的设置角度是否满足“侧倾＜360°”(换言之，原始图像的设置角度是否满足侧倾≠360°)(步骤S206)。在原始图像的设置角度满足“侧倾＜360°”的情况下(步骤S206；是)，图像处理装置100改变原始图像数据集的每个侧倾角(步骤S207)。例如，图像处理装置100将侧倾角增大1°并且将侧倾角设置为1°。然后，图像处理装置100对改变了侧倾角的图像数据集执行投影变换，并且输出学习数据(步骤S208)。

此后，图像处理装置100重复输出学习数据，直到每个侧倾角达到360°为止。然后，在原始图像的设置角度不再满足“侧倾＜360°”的情况下(步骤S206；是)，图像处理装置100结束对原始图像数据的侧倾的改变，将俯仰和侧倾不同的图像数据设置为一个图像数据集，并且读取该图像数据集(步骤S209)。

然后，图像处理装置100确定原始图像的设置角度是否满足“横摆<脸部与图像边框的接触结束的角度”(换言之，横摆角是否在作为被摄体的脸部在横向上分开的范围内)(步骤S210)。

在原始图像的设置角度满足“横摆<脸部与图像边框的接触结束的角度”的情况下(步骤S210；是)，图像处理装置100改变原始图像数据集的每个横摆角(步骤S211)。例如，图像处理装置100将横摆角增大1°。然后，图像处理装置100对改变了横摆角的图像数据集执行投影变换，并且输出学习数据(步骤S212)。

此后，图像处理装置100重复输出学习数据，直到横摆角达到“脸部与图像边框的接触结束的角度”为止。然后，在原始图像的设置角度不再满足“横摆<脸部与图像边框的接触结束的角度”的情况下(步骤S210；否)，图像处理装置100结束对原始图像数据的横摆的改变，并且将根据一个图像数据创建的学习数据集存储到学习数据存储单元122中(步骤S213)。

接下来，将参照图13描述检测处理和替换处理的过程。图13是示出根据本公开的第一实施例的处理流程的流程图(3)。

如图13所示，图像处理装置100接受要作为检测处理的目标的宽视角图像(步骤S301)。然后，图像处理装置100将宽视角图像输入到检测模型150中(步骤S302)。

图像处理装置100确定是否已经从宽视角图像中检测到脸部(步骤S303)。在已经检测到脸部的情况下(步骤S303；是)，图像处理装置100计算检测到的脸部的角度信息(步骤S304)。

然后，图像处理装置100选择与角度信息对应的替换模型160(步骤S305)。随后，图像处理装置100生成替换了脸部的宽视角图像(步骤S306)。

在脸部替换之后，或者在未检测到脸部的情况下(步骤S303；否)，图像处理装置100将宽视角图像发送到HMD 10等(步骤S307)。

[1-5.第一实施例的变型]

在上述第一实施例中，已经例示了图像处理装置100根据学习数据145生成检测模型150。然而，图像处理装置100可以基于例如被摄体的属性信息来划分学习数据145，并且可以使用所划分的学习数据来生成检测模型。例如，图像处理装置100可以针对诸如种族、性别和年龄的每个属性信息对学习数据进行分类，并且可以使用分类后的学习数据集来生成多个检测模型。结果，图像处理装置100可以聚焦于特征量相似的脸部图像来执行学习，从而可以提高学习效率。

图像处理装置100可以生成用于除了人的脸部以外的检测的检测模型150。例如，图像处理装置100可以生成用于检测字符的模型，或者用于检测制造商的徽标、注册商标等的模型。在这种情况下，图像处理装置100可以保存用于替换检测到的对象的任何对象等的图像数据，并且可以基于所保存的图像数据执行替换。作为示例，在图像中的招牌中捕获了特定的公司名称的情况下，图像处理装置100可以替换公司名称，并且可以在招牌上显示诸如“广告位招租”的文本数据。

替选地，图像处理装置100可以删除检测到的目标而不是替换检测到的目标。在这种情况下，图像处理装置100可以基于在删除之前检测到的目标的周围环境的像素信息来执行用自然像素填充删除部分的处理。

(2.第二实施例)

接下来，将描述第二实施例。在第一实施例中，已经例示了图像处理装置100创建使用等距柱状投影方案进行投影变换的学习数据。在第二实施例中，将例示图像处理装置100创建使用与等距柱状投影方案不同的方案进行投影变换的学习数据。注意，图像处理装置100的配置与第一实施例的配置相同，因此将省略描述。

图14示出了根据本公开的第二实施例的图像处理的概况。图14示出了与由所谓的鱼眼镜头捕获并生成的图像(在下文中称为“鱼眼镜头图像”)对应的学习数据组95。注意，在图14所示的示例中，作为鱼眼镜头图像中捕获作为被摄体的脸的范围，将俯仰角和横摆角的范围指示为从-70°至70°。

鱼眼镜头图像96表示具有0°的俯仰和0°的横摆的图像。图像处理装置100例如将横摆方向上的角度改变为负方向上的角度，并且创建脸部左移的学习数据。例如，图像处理装置100在保持俯仰为0°的同时将横摆方向上的角度改变为-70°，并且获得鱼眼镜头图像97。此外，图像处理装置100在保持横摆为0°的同时将俯仰方向上的角度改变为45°，并且获得鱼眼镜头图像98。

以这种方式，类似于第一实施例，图像处理装置100顺序改变俯仰方向和横摆方向并且执行投影变换，使得可以创建与鱼眼镜头对应的学习数据组95。尽管在图14中未示出，但是针对俯仰方向和横摆方向顺序改变的每个图像数据组95，图像处理装置100可以进一步创建侧倾方向上的角度从0°改变至359°的学习数据组。

即，图像处理装置100不仅可以根据在第一实施例中描述的等距柱状投影方案来创建学习数据，而且可以根据各种投影方案来创建学习数据。此外，除了图14所示的示例之外，图像处理装置100还可以创建与要用作诸如立方体映射、偏心球形表面映射图像等的宽视角图像的方案的各种方法对应的学习数据。即，作为用于创建学习数据的预定投影变换方案，图像处理装置100执行等距圆柱投影、立方体映射或鱼眼投影中的至少任何一个的投影变换，并且创建学习数据。在这种情况下，如图14所示，图像处理装置100将俯仰角和横摆角改变的范围适当地设置为适合于每种方案的范围，使得可以省略额外学习数据的创建并且可以快速地执行处理。

(3.其他实施例)

除了每个上述实施例之外，还可以以各种不同的形式执行根据每个上述实施例的处理。

例如，已经示例了根据本公开的图像处理系统1包括图像处理装置100、数据服务器200和HMD10。然而，图像处理系统1中包括的装置可以相互组合或分开。例如，HMD 10可以包括执行与图2所示的图像处理装置100的控制单元130类似的处理的每个处理单元，并且HMD 10可以独立地执行根据本公开的信息处理。在这种情况下，HMD 10可以是用于智能手机的所谓的VR眼镜，该VR眼镜是通过将智能手机等插入到眼镜形状的壳体中来实现的。

此外，在每个上述实施例中中，球形内容被表示为宽视角图像的示例。然而，根据本公开的图像处理还适用于除了球形内容之外的图像和内容。例如，根据本公开的图像处理还可以适用于所谓的全景图像和全景运动图像，这些图像各自具有比HMD 10的显示器上一次能够显示的区域宽的区域。根据本公开的图像处理还适用于各自具有180°范围的VR图像和VR运动图像(所谓的半球形内容)。另外，宽视角图像不限于静止图像和运动图像，因此例如可以是由计算机图形(CG)创建的游戏内容。

另外，在每个上述实施例中描述的各处理中，可以手动执行已被描述为自动执行的处理的全部或一部分，或者可以通过已知方法自动执行已被描述为手动执行的处理的全部或一部分。此外，除非另外指定，否则可以自由地改变在以上描述和附图中示出的处理过程、具体名称、包括各种类型的数据和参数的信息。例如，在每个附图中示出的各种类型的信息不限于示出的信息。

此外，附图中示出的装置的每个构成元件在功能上是概念性的，因此不必一定如图所示地进行物理配置。即，每个装置的分开或集成的具体形式不限于附图中所示的形式，因此，装置的整体或部分可以根据各种负荷或使用条件按照单元在功能上或物理上分开或集成。例如，图2所示的获取单元131和接受单元134可以被集成在一起。

此外，可以在处理内容不矛盾的范围内适当地组合上述各实施例和变型。

此外，本文描述的效果仅是示例并且不受限制，并且可能存在其他效果。

(4.硬件配置)

根据每个上述实施例中的信息设备(例如图像处理装置100、HMD 10和数据服务器200)是通过例如具有与图15所示的配置类似的配置的计算机1000来实现的。在下文中，将描述根据第一实施例的图像处理装置100作为示例。图15是实现图像处理装置100的功能的计算机1000的示例的硬件配置图。计算机1000包括CPU 1100、RAM 1200、只读存储器(ROM)1300、硬盘驱动器(HDD)1400、通信接口1500和输入输出接口1600。计算机1000的每个组成部分通过总线1050连接。

CPU 1100根据存储在ROM 1300或HDD 1400中的程序进行操作，并且控制各个组成部分。例如，CPU 1100将存储在ROM 1300或HDD 1400中的程序扩展到RAM 1200中，并且根据对应程序执行处理。

ROM 1300存储在计算机1000启动时由CPU 1100执行的诸如基本输入输出系统(BIOS)的引导程序、取决于计算机1000的硬件的程序等。

HDD 1400是非临时地记录由CPU 1100执行的程序、由该程序使用的数据等的计算机可读记录介质。具体地，HDD 1400是记录作为程序数据1450的示例的根据本公开的图像处理程序的记录介质。

通信接口1500是用于将计算机1000连接到外部网络1550(例如，因特网)的接口。例如，CPU 1100经由通信接口1500接收来自其他设备的数据或者经由通信接口1500向其他设备发送由CPU 1100生成的数据。

输入输出接口1600是用于连接输入输出装置1650与计算机1000的接口。例如，CPU1100经由输入输出接口1600从诸如键盘或鼠标的输入装置接收数据。CPU 1100还经由输入输出接口1600将数据发送到诸如显示器、扬声器或打印机的输出装置。此外，输入输出接口1600可以用作读取记录在预定记录介质上的程序等的介质接口。介质例如是诸如数字通用盘(DVD)或相变可重写盘(PD)的光记录介质、诸如磁光盘(MO)的磁光记录介质、磁带介质、磁记录介质或半导体存储器。

例如，在计算机1000用作根据第一实施例的图像处理装置100的情况下，计算机1000的CPU 1100执行在RAM 1200上加载的图像处理程序以实现控制单元130的功能。另外，HDD 1400将根据本公开的图像处理程序和数据存储在存储单元120中。注意，CPU 1100从HDD 1400读取程序数据1450并且执行程序数据1450；然而，作为另一示例，可以经由外部网络1550从另一装置获取这些程序。

注意，本技术还可以具有以下配置。

(1)

一种图像处理装置，包括：

学习数据创建单元，其被配置成对包括作为被摄体的目标的图像数据执行投影变换，创建包括作为正确数据的所述目标的学习数据；以及

模型生成单元，其被配置成基于由所述学习数据创建单元创建的学习数据，生成学习模型，所述学习模型用于检测包括宽视角图像的、被输入到所述学习模型的输入数据中所包括的所述目标，所述宽视角图像是通过与用于创建所述学习数据的投影变换的方案相同的投影变换创建的。

(2)

根据(1)所述的图像处理装置，

其中，所述学习数据创建单元

从所述被摄体的初始状态改变所述被摄体的角度，

对与改变后的角度对应的图像数据执行投影变换，并且

创建所述学习数据。

(3)

根据(2)所述的图像处理装置，

其中，所述学习数据创建单元

改变所述被摄体在俯仰方向、侧倾方向和横摆方向上的各个角度，对与改变后的角度对应的图像数据执行投影变换，并且

创建所述学习数据。

(4)

根据(3)所述的图像处理装置，

其中，所述学习数据创建单元

在所述被摄体部分接触所述图像数据的图像边框的范围内改变所述被摄体在横摆方向上的角度，

对与改变后的角度对应的图像数据执行投影变换，并且

创建所述学习数据。

(5)

根据(1)至(4)中任一项所述的图像处理装置，还包括：

检测单元，其被配置成使用由所述模型生成单元生成的学习模型从所述输入数据中检测所述目标。

(6)

根据(5)所述的图像处理装置，

其中，所述模型生成单元

基于投影变换的类型生成彼此不同的多个学习模型，并且

所述检测单元

从所述多个学习模型中选择与对所述输入数据执行的投影变换的类型对应的学习模型，并且

使用所选择的学习模型来检测所述目标。

(7)

根据(5)或(6)所述的图像处理装置，

其中，所述模型生成单元

基于由所述学习数据创建单元创建的学习数据，生成用于完全或部分替换由所述检测单元检测到的所述目标的替换模型。

(8)

根据(7)所述的图像处理装置，

其中，所述学习数据创建单元

从所述被摄体的初始状态改变所述被摄体的角度，

对与改变后的角度对应的图像数据执行投影变换，并且

创建所述学习数据，并且

所述模型生成单元

基于由所述学习数据创建单元基于角度创建的学习数据，基于角度生成彼此不同的多个替换模型。

(9)

根据(8)所述的图像处理装置，

其中，所述检测单元

从由所述模型生成单元生成的所述多个替换模型中选择与从所述输入数据中检测到的所述目标对应的替换模型，并且使用所选择的替换模型替换所述目标。

(10)

根据(9)所述的图像处理装置，

其中，所述检测单元

替换从所述输入数据中检测到的所述目标中包括的部分。

(11)

根据(1)至(10)中任一项所述的图像处理装置，

其中，所述模型生成单元

生成用于检测作为所述宽视角图像的球形内容、半球形内容或全景图像中的至少任何一个中所包括的所述目标的学习模型。

(12)

根据(1)至(11)中任一项所述的图像处理装置，

其中，所述学习数据创建单元

根据包括作为所述目标的人脸的被摄体的图像数据创建所述学习数据。

(13)

根据(12)所述的图像处理装置，

其中，所述学习数据创建单元

根据其中设置了所述人脸中包括的每个部位的位置信息的图像数据创建所述学习数据。

(14)

根据(1)至(13)中任一项所述的图像处理装置，

其中，所述学习数据创建单元

执行等距柱状投影、立方体映射或鱼眼投影中的至少任何一个作为所述投影变换的方案，并且

生成所述学习数据。

(15)

一种由计算机执行的图像处理方法，包括：

对包括作为被摄体的目标的图像数据执行投影变换，并且创建包括作为正确数据的所述目标的学习数据；以及

基于所创建的学习数据，生成学习模型，所述学习模型用于检测包括宽视角图像的、被输入到所述学习模型的输入数据中所包括的所述目标，所述宽视角图像是通过与用于创建所述学习数据的投影变换的方案相同的投影变换创建的。

(16)

一种用于使计算机用作以下部件的图像处理程序：

模型生成单元，其被配置成基于由所述学习数据创建单元创建的学习数据，生成学习模型，所述学习模型用于检测包括宽视角图像的、被输入到所述学习模型的输入数据中所包括的所述目标，所述宽视角图像是通过与用于创建所述学习数据的投影变换的方案相同的投影变换创建的。(1)附图标记列表

1 图像处理系统

10 HMD

100 图像处理装置

110 通信单元

120 存储单元

121 图像数据存储单元

122 学习数据存储单元

123 模型存储单元

130 控制单元

131 获取单元

132 学习数据创建单元

133 模型生成单元

134 接受单元

135 检测单元

136 发送单元

150 检测模型

160 替换模型

200 数据服务器

Claims

1.一种图像处理装置，包括：

模型生成单元，其被配置成基于由所述学习数据创建单元创建的学习数据，生成学习模型，所述学习模型用于检测包括宽视角图像的、被输入到所述学习模型的输入数据中所包括的所述目标，所述宽视角图像是以与用于创建所述学习数据的投影变换的方案相同的投影变换的格式来记录的，

其中，所述学习数据创建单元

从所述被摄体的初始状态改变所述被摄体的角度，对与改变后的角度对应的图像数据执行投影变换，并且创建所述学习数据。

2.根据权利要求1所述的图像处理装置，

其中，所述学习数据创建单元

改变所述被摄体在俯仰方向、侧倾方向和横摆方向上的各个角度，

对与改变后的角度对应的图像数据执行投影变换，并且

创建所述学习数据。

3.根据权利要求2所述的图像处理装置，

其中，所述学习数据创建单元

对与改变后的角度对应的图像数据执行投影变换，并且

创建所述学习数据。

4.根据权利要求1所述的图像处理装置，还包括：

5.根据权利要求4所述的图像处理装置，

其中，所述模型生成单元

基于投影变换的类型生成彼此不同的多个学习模型，并且

所述检测单元

使用所选择的学习模型来检测所述目标。

6.根据权利要求4所述的图像处理装置，

其中，所述模型生成单元

7.根据权利要求6所述的图像处理装置，

其中，所述学习数据创建单元

从所述被摄体的初始状态改变所述被摄体的角度，

对与改变后的角度对应的图像数据执行投影变换，并且

创建所述学习数据，并且

所述模型生成单元

8.根据权利要求7所述的图像处理装置，

其中，所述检测单元

9.根据权利要求8所述的图像处理装置，

其中，所述检测单元

替换从所述输入数据中检测到的所述目标中包括的部分。

10.根据权利要求1所述的图像处理装置，

其中，所述模型生成单元

11.根据权利要求1所述的图像处理装置，

其中，所述学习数据创建单元

12.根据权利要求11所述的图像处理装置，

其中，所述学习数据创建单元

13.根据权利要求1所述的图像处理装置，

其中，所述学习数据创建单元

生成所述学习数据。

14.根据权利要求9所述的图像处理装置，

其中，所述模型生成单元

生成用于检测作为所述宽视角图像的球形内容、半球形内容或全景图像中的至少任何一个中所包括的所述目标的学习模型，并且

所述检测单元

使用用于检测所述球形内容、所述半球形内容或所述全景图像中的至少任何一个中所包括的所述目标的学习模型，从所述输入数据中检测所述目标。

15.根据权利要求13所述的图像处理装置，

其中，所述学习数据创建单元

16.根据权利要求3所述的图像处理装置，

其中，所述学习数据创建单元

执行等距柱状投影、立方体映射或鱼眼投影中的至少任何一种作为所述投影变换的方案，并且创建所述学习数据。

17.一种由计算机执行的图像处理方法，包括：

基于所创建的学习数据，生成学习模型，所述学习模型用于检测包括宽视角图像的、被输入到所述学习模型的输入数据中所包括的所述目标，所述宽视角图像是以与用于创建所述学习数据的投影变换的方案相同的投影变换的格式来记录的，

其中，执行投影变换并且创建学习数据包括：从所述被摄体的初始状态改变所述被摄体的角度，对与改变后的角度对应的图像数据执行投影变换，并且创建所述学习数据。

18.一种计算机可读记录介质，其存储有用于使计算机用作以下部件的图像处理程序：

其中，所述学习数据创建单元