CN105144687A

CN105144687A - 图像处理装置、图像处理方法及程序

Info

Publication number: CN105144687A
Application number: CN201480023065.6A
Authority: CN
Inventors: 木村笃史
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-04-30
Filing date: 2014-03-13
Publication date: 2015-12-09
Anticipated expiration: 2034-03-13
Also published as: EP2993884B1; WO2014178234A1; US20190147565A1; JPWO2014178234A1; US20160071238A1; CN110730296A; EP2993884A4; CN110730296B; EP2993884A1; JP6471777B2; US10229477B2; US10789676B2; EP3901897A1; CN105144687B; JP2018011302A; JP6176322B2

Abstract

[问题]为了使得可以创建具有较高现实感和沉浸感的全景图像而无需对用户强加过多的负担。[解决方案]本发明执行：位置对齐判定处理(2)用于判定确保捕获的被摄体的一致性的位置对齐在全景捕获图像数据与不是全景捕获图像数据的其它捕获图像数据之间是否可能；及图像连接处理(3)用于连接全景捕获图像数据与相对于全景捕获图像数据的位置对齐被判定为可能的其它捕获图像数据。例如，当通过整合诸如视频或高分辨率图像的不是全景捕获图像的其它捕获图像来创建具有增强的现实感和沉浸感的全景图像时，用户只需从基本上相同的拍摄位置拍摄全景图像和其它图像，而无需给用户强加过多负担，就可以实现具有更高现实感和沉浸感的全景图像。

Description

图像处理装置、图像处理方法及程序

技术领域

本技术涉及为捕获的全景图像数据执行图像处理的图像处理装置、图像处理方法、以及用于图像处理的程序。

引用列表

专利文献

专利文献1：JP2010-161520A

专利文献2：JP2011-519192T

背景技术

例如，如在专利文献1中所描述的，从多个捕获图像生成单个全景图像的这种全景合成技术是已知的。

取决于包括图像拍摄技术(诸如水平扫描图像拍摄、水平和垂直自由摆动图像拍摄、以及多行图像拍摄)、光学系统(诸如广角镜头和鱼眼镜头)和合成算法的每个要素，各种全景合成技术都是可能的，并且使得可以拍摄包含环绕用户(摄影者)的360度场景的全周全景图像和甚至包括在用户(摄影者)正上方或正下方的场景的全向全景图像。

这种全景图像通常被记录为投影到圆柱面、球面等的图像，并且可以在相机的再现模式中或者被个人计算机(PC)中的图像浏览器等再现。

投影到圆柱面或球面的全景图像可以进一步再投影和显式在虚拟平面屏幕上，从而向用户提供强烈的临场感和沉浸感(例如，QuickTimeVR？AnImage-BasedApproachtoVirtualEnvironmentNavigation[AppleComputer,Inc.])。

由于这些全景合成技术在性质上合成从不同位置拍摄的多个图像，因此难以生成全景运动图像。作为创建全景运动图像的技术，利用特殊光学系统的技术(诸如能够在单次曝光拍摄全周的图像的二次曲线镜)已获得广泛的使用。但是，该技术放大了在图像传感器上形成的全周图像来创建全景图像，不幸地显著降低了分辨率。

使多个相机同时捕获图像以及使用诸如多眼相机的专用相机装置的这些技术也是已知的，但是对于一般的用户，很难随意使用这些技术。

此外，当然存在用遥摄倾斜器(pantilter)和长焦镜头等自动拍摄图像来生成具有一些具有十亿像素(gigapixel)的超高分辨率全景图像的技术，但是需要有特殊装置(遥摄倾斜器)并且花很长的时间来拍摄图像并合成所拍摄的图像。而且，所生成的全景图像具有庞大的数据大小，使得对于一般的用户，也不容易随意使用该技术。

运动图像和高分辨率是使全景图像提供加强的临场感和沉浸感的重要要素，但是如上所述，对于一般用户，在这些情况下难以结合那些要素。

此外，专利文献2公开了接合各个具有相似位置数据的记录数据来向用户呈现全景场景的技术。

发明内容

技术问题

如果装置能自动地将运动图像和高分辨率图像粘贴和整合为全景图像，则可以生成向用户提供较强临场感和沉浸感的全景图像而无需给用户强加太重的负担。

不幸的是，在这些情况下，还没有设计出具体的技术。

本技术的一个目的是生成向用户提供较强临场感和沉浸感的全景图像而无需给用户强加太重的负担。

问题的解决方案

首先，根据本技术的一种图像处理装置包括：对齐判定处理部分，配置为判定除捕获的全景图像数据之外的其它捕获图像数据是否能够以捕获的被摄体在捕获的全景图像数据和其它捕获图像数据之间保持一致的方式与捕获的全景图像数据对齐；图像连接处理部分，其配置为将由对齐判定处理部分判定为能够与捕获的全景图像数据对齐的其它捕获图像数据连接到捕获的全景图像数据。

根据上述配置，可以将被判定为能够与捕获的全景图像数据对齐的捕获图像数据连接到捕获的全景图像数据。

第二，在根据本技术的图像处理装置中，期望其它捕获图像数据包括运动图像数据和静止图像数据中的任何一种，其中，所述静止图像数据用作与用于捕获所述捕获的全景图像数据的全景图像的设定视角相比在长焦端的视角处捕获的高分辨率图像数据。

运动图像或高分辨率图像对于整合到捕获的全景图像中以增强临场感和沉浸感是优选的。

第三，在根据本技术的图像处理装置中，期望对齐判定处理部分根据其它捕获图像数据的图像类型改变判定方法。

这允许根据图像类型使用合适的对齐判定方法。

第四，在根据本技术的图像处理装置中，期望其它捕获图像数据包括运动图像数据和静止图像数据两者，并且对齐判定处理部分用比静止图像数据的判定标准低的判定标准判定运动图像数据。

按照特性，运动图像数据可以包括相对大量的未能对齐的帧图像，使得由此判定是用低判定标准做出的。

第五，在根据本技术的图像处理装置中，期望当连续地判定预定数量或更多的帧图像数据不能对齐时，或者当判定为不能对齐的帧图像数据的数量与帧的总数量之比大于或等于预定值时，对齐判定处理部分判定整个的运动图像数据不能与捕获的全景图像数据对齐。

因此，对齐判定是基于不能对齐的连续帧图像的数量以及与帧的总数量的比利用合适的判定标准对运动图像做出的。

第六，在根据本技术的图像处理装置中，期望其它捕获图像数据包括多变焦图像数据，所述多变焦图像数据包括与用于捕获所述捕获的全景图像数据的全景图像的设定视角相比在长焦端的多个视角处分别捕获的静止图像数据，当其它捕获图像数据是多变焦图像数据时，对齐判定处理部分判定在多变焦图像数据中所包括的每个静止图像数据是否能够与捕获的全景图像数据对齐，并且连接处理部分不将由对齐判定处理部分判定为不能与捕获的全景图像数据对齐的静止图像数据连接到捕获的全景图像数据。

多变焦图像要求相对较高的对齐精度，因为用户专注于享受高分辨率图像。

第七，在根据本技术的图像处理装置中，期望对齐判定处理部分判定在多变焦图像数据中所包括的每个静止图像数据的是否能够与捕获的全景图像数据对齐，并且在存在结果被判定为不能与捕获的全景图像数据对齐的静止图像数据的情况下，判定整个多变焦图像数据不能与捕获的全景图像数据对齐。

因此，除非判定在多变焦图像数据中所包括的所有静止图像数据都能够对齐，否则，即使存在能够对齐的静止图像数据，也没有静止图像数据被连接到捕获的全景图像数据。

第八，在根据本技术的图像处理装置中，期望对齐判定处理部分基于通过执行检测两个目标图像中的特征点和对应点、基于检测到的对应点的坐标检测局部和全局运动、以及用鲁棒估计方法检测两个图像之间的最佳位置关系的图像配准处理所获得的结果判定两个目标图像是否能够彼此对齐。

因此，对齐处理被执行作为对齐判定处理中的图像配准处理。

第九，在根据本技术的图像处理装置中，期望对齐判定处理部分判定检测到的特征点的数量小于预定值的捕获图像数据是不能对齐的。

检测到的特征点的数量小于预定值意味着缺乏特征的均匀图像。

第十，期望判定检测到的对应点的数量小于预定值的捕获图像数据在根据本技术的图像处理装置中是不能对齐的。

检测到的对应点的数量小于预定值意味着可被认为在两个图像之间相同的特征点少。

第十一，在根据本技术的图像处理装置中，期望对齐判定处理部分在图像配准处理中执行RANSAC的鲁棒估计处理，并判定在鲁棒估计处理的过程中所获得检测到的内点的数量小于预定值的捕获图像数据是不能对齐的。

检测到的内点的数量小于预定值意味着要被用作用于对齐的标准的指示全局运动(即，背景的运动)的特征点少。

第十二，期望根据本技术的图像处理装置还包括：选择处理部分，配置为选择要由对齐判定处理部分处理的捕获的全景图像数据和其它捕获图像数据。

这允许对齐判定处理部分只对由选择处理部分选择的全景图像数据和其它捕获图像数据执行判定处理。

第十三，期望根据本技术的图像处理装置还包括：对齐信息添加处理部分，配置为将关于捕获的全景图像数据的对齐信息添加到由对齐判定处理部分判定为能够对齐的其它捕获图像数据。

需要对齐信息来整合捕获的全景图像数据和其它捕获图像数据。

发明的有益效果

根据本发明，为了整合除捕获的全景图像之外的捕获图像(诸如运动图像和高分辨率图像)，以及为了生成提供加强的临场感和沉浸感的全景图像，用户只需在基本上相同的图像捕获点处拍摄全景图像和其它捕获图像。因此，可以生成向用户提供较强临场感和沉浸感的全景图像感而无需给用户强加太重的负担。

附图说明

图1是用于描述全景合成的概述的图。

图2是示出接缝的例子的图。

图3是示出全景图像与接缝之间的关系的图。

图4是示出根据实施例的包括图像处理装置的图像捕获装置的结构例的图。

图5是示出作为功能结构的作为全景合成处理被执行的处理的图。

图6是用于描述被执行直到全景图像和其它图像被彼此连接为止的处理的概述的图。

图7是连接信息的添加的具体实例的解释性图。

图8是用于描述为了实现根据实施例的图像处理而被执行的具体处理的过程的流程图。

图9是示出作为对于运动图像的判定和连接处理被执行的处理的过程的流程图。

图10是示出作为对于多变焦图像的判定和连接处理被执行的处理的过程的流程图。

图11是示出执行对齐判定处理和图像连接处理的计算机装置的结构例的图。

具体实施方式

本技术的实施例将在以下进行描述。

描述将按照以下次序给出。

<1.关于全景合成>

<2.图像处理装置的结构>

[2-1.整体结构]

[2-2.全景合成处理]

<3.连接的流程>

[3-1.概述]

[3-2.关于对齐判定处理]

[3-3.关于连接处理]

<4.处理过程>

<5.结论>

<6.程序>

<7.修改>

<8.本技术>

<1.关于全景合成>

首先，将描述全景合成的概述。

根据以下描述的实施例和近年来的一般图像捕获装置(数字静物相机)的图像捕获装置100可以通过对多个静止图像(全景帧图像数据)执行合成处理来生成全景图像(捕获的全景图像数据)，其中所述多个静止图像是捕获图像的人在特定点(旋转轴)处旋转图像捕获装置100的同时捕获的。

图1A示出了用于捕获全景图像的图像捕获装置100的运动。由于背景与前景之间的不一致使得合成图像的接合处在全景图像中不自然，因此期望使用被称为节点(nodalpoint)的特定于镜头的点，作为用于捕获图像的旋转中心，其中在该节点处观察不到不一致。用于捕获全景图像的图像捕获装置100的旋转被称为“扫描”。

图1B是示出通过图像捕获装置100的扫描所获取的多个静止图像被适当对齐的示意图。这个图示出了从第一个捕获图像开始按时间次序的各个被捕获静止图像。即，从时间0到时间(n-1)捕获到的静止图像被称为各个全景帧图像数据FM#0、FM#1...FM#(n-1)。

如果全景图像是根据n个静止图像生成的，则合成处理对如图中所示出的连续捕获的一连串n个全景帧图像数据FM#0至FM#(n-1)执行。

如图1B中所示，每个被捕获帧图像数据需要部分地与相邻帧图像数据重叠。从而，用于图像捕获装置100捕获各个帧图像数据的时间间隔和摄影者的扫描速度的上限需要被适当地设置。

以这种方式对齐的帧图像数据组具有大量的重叠部分，使得需要决定要用于最终全景图像的每个帧图像数据的区域。换句话说，这与决定全景合成处理中图像的接合处(接缝)相同。

图2A和2B每个都示出了接缝SM的例子。

接缝包括如图2A中所示与扫描方向垂直的直线和如图2B中所示的非直线(诸如曲线)。

在图2A和2B中，接缝SM0代表全景帧图像数据FM#0与FM#1之间的接合处，接缝SM1代表全景帧图像数据FM#1与FM#2之间的接合处，…接缝SM(n-2)代表全景帧图像数据FM#(n-2)与FM#(n-1)之间的接合处。

此外，如果这些接缝SM0至SM(n-2)被用作合成的相邻图像之间的接合处，则各个帧图像数据中的阴影图像区域不用于最终的全景图像。

当进行全景合成时，在一些情况下对接缝周围的图像区域执行混合处理，以便改善接缝周围图像的不自然。

混合处理广泛地对各个帧图像数据的公共部分执行，以便一方面接合各个帧图像数据。另一方面，从公共部分中选择对全局图像做出贡献的每个像素。在这些情况下，没有明确的接合处，但是在本描述中，这种宽接合部分也将作为接缝被对待。

如图1B中所示对齐各个帧图像数据一般导致沿扫描方向和与扫描方向垂直的方向的轻微运动。这是由执行扫描操作的摄影者等的相机抖动造成的差异。

决定各个帧图像数据的接缝、通过接合边界区域或者对边界区域执行混合处理来接合各个帧图像数据，并且最后基于相机抖动量修剪掉沿与扫描垂直的方向的不必要部分提供了如图3中所示以扫描方向作为纵向方向的广角全景图像。

图3示出了垂直线中的接缝，并且示意性地示出n个全景图像帧数据FM#0至FM#(n-1)在接缝SM0至SM(n-2)处接合到一起，以生成全景图像。

将描述由用户(摄影者)利用图像捕获装置100为了获取这种全景图像而执行的操作的具体例子。

首先，用户把图像捕获装置100设置为全景图像捕获模式，并且还设置最大图像捕获视角。用户可以选择例如120度、180度和360度作为最大图像捕获视角。如果用户选择360度，则可以捕获包括用户周围的所有场景的所谓的全向图像。此外，如果360度被设置为全景图像捕获模式中的最大图像捕获视角，则使用词语“360度全景图像捕获模式”。同时，如果180度被设置为全景图像捕获模式中的最大图像捕获视角，则使用词语“180度全景图像捕获模式”。

接下来，用户按下图像捕获装置100的快门按钮，以开始捕获全景图像，并且执行扫描操作。如果全景图像捕获的终止条件在其后被满足，则全景图像捕获结束。例如，终止条件如下：

*达到预设的最大图像捕获视角，

*用户执行的扫描操作停止，

*用户再次按下快门按钮，

*用户从快门按钮抬起他或她的手指(在全景图像被捕获的同时快门按钮保持被按下的方法中)，及

*某个错误发生。

全景合成处理在图像捕获完成之后自动开始。全景图像的合成在某个时间之后完成，并且全景图像数据存储在记录装置中。

其后，可以以与一般静止图像相同的方式列出并显示全景图像数据。

将描述以这种方式生成的全景图像数据及其显示实例的例子。

图4A是对全景合成执行的投影处理的示意图。用于全景合成的各种处理方法是可能的，但是经常执行例如投影到圆柱面、球面和立方体的处理。为了方便描述，这被称为“用于合成的投影处理(再投影处理)”，并且与以下讨论的为了投影显示而执行的“用于显示的投影处理”区分开。

图4A示出了在图像捕获装置100被扫描的同时在全景图像捕获操作中所捕获的许多全景帧图像数据FM。全景帧图像数据FM或者以与正常拍摄相同的方式生成的捕获图像可以通过把三维场景投影到平面(诸如相机的成像器平面)来获取。当根据所述许多全景帧图像数据FM生成如图3中所示的全景图像数据时，每个全景帧图像数据FM被例如投影到圆柱面FR，作为用于合成的投影处理。沿着圆柱面FR，该图示出了示意性投影的全景帧图像数据FMpd。

以这种方式经受用于合成的投影处理的那些全景帧图像数据FMpd被接合，以生成如图4B所示的全景图像数据PD。从投影中心CT的角度，全景图像数据PD可以被认为是再投影到圆柱面FR的图像数据。

<2.图像处理装置的结构>

[2-1.整体结构]

图4示出了根据本技术的实施例的包括图像处理装置1的图像捕获装置100的结构例。

图像捕获装置100包括镜头单元110、图像传感器101、图像处理部分102、图形处理部分103、记录装置104、显示部分105、通信部分106、存储器部分107、控制部分108、操作部分109以及传感器部分110。

虽然在图中未示出，但是根据本实施例的图像处理装置1代表通过由图像处理部分103和控制部分108所执行的处理来实现的示意性装置。

图像处理部分102、图形处理部分103、记录装置部分104、显示部分105、通信部分106、存储器部分107、控制部分108、操作部分109以及传感器部110经由总线112彼此连接，并且图像数据、控制信号等等在其间交换。

镜头单元111收集被摄体的光学图像。镜头单元111包括根据来自控制部分108的指令以可以获取适当图像的方式调整焦距、被摄体距离、光圈等的机构。镜头单元111还包括图像稳定机构，用于光学地防止图像变模糊。

图像传感器101把由镜头单元111收集的光学图像光电转换为电信号(图像捕获信号)。具体而言，图像传感器101由电荷耦合器件(CCD)图像传感器、互补金属氧化物半导体(CMOS)图像传感器等等来实现。

图像处理部分102包括采样来自图像传感器101的电信号的采样电路、将模拟信号转换为数字信号的A/D转换电路，以及对数字信号执行预定的图像处理的图像处理电路。这个图像处理部分102基于由图像传感器101获取的图像捕获信号来执行获取图像数据的处理。除静止图像数据之外，还可以生成运动图像数据作为也可以用作全景帧图像数据FM的图像数据。

图像处理部分102具有用于实现全景合成的全景合成功能。为了实现全景合成功能而由图像处理部分102执行的处理在图中示意性地由“全景合成处理部分102A”表示。

图像处理部分102不仅包括专用硬件电路，而且还包括中央处理单元(CPU)和数字信号处理器(DSP)，并且可以执行软件处理来支持灵活的图像处理。

图形处理部分103是用于以高速生成2D和3D图形的硬件，并且通常被称为图形处理单元(GPU)。GPU不仅包括专用于特定功能的硬件电路，而且包括可编程处理器，并且可以执行灵活的图形处理。可编程处理器的特性允许GPU的计算性能用于除图形之外的目的，并且GPU以这种途径的使用一般被称为关于GPU的通用计算(GPGPU)。

记录装置104包括记录介质(诸如包括闪存存储器的半导体存储器、磁盘、光盘和磁-光盘)以及用于这些记录介质的记录和再现系统电路和机构。

当图像捕获装置100捕获静止图像时，图像处理部分102把所捕获的静止图像编码为预定的静止图像格式(诸如联合图像专家组(JPEG)格式)，然后存储在存储器部分107中的静止图像数据被记录在记录介质中。当图像捕获装置100捕获运动图像时，图像处理部分102把所捕获的运动图像编码为预定的运动图像格式(诸如高级视频编解码高清晰度(AVCHD)格式)，然后存储在存储器部分107中的运动图像数据被记录在记录介质中。

当被再现时，静止图像数据和运动图像数据被存储器部分107读取，并且图像处理部分102对其执行解码处理。解码的图像数据可以在显示部分105上显示或者由通信部分106发送并输出到外部装置。

显示部分105包括把由图像处理部分102处理并存储在存储器部分107中的图像数据转换成模拟信号的D/A转换电路、把转换成模拟信号的图像信号编码为适于下游显示装置的格式视频信号的视频编码器、以及显示与输入视频信号对应的图像的显示装置。

显示装置是例如通过液晶显示器(LCD)、有机电致发光(EL)面板等等实现的，并且还具有取景器的功能。

通信部分106与外部装置进行通信，并执行网络通信。具体而言，通信部分106包括用于移动电话系统的被称为3G或4G通信的移动通信系统、以及利用由IEEE802.11系列支持的无线局域网(LAN)执行无线通信或者利用有线LAN、通用串行总线(USB)或Thunderbolt执行有线通信的模块。这使得可以经由互联网与诸如外部个人计算机、移动电话、智能电话和平板以及各种服务器的装置交换数据。

此外，用于由通信部分106执行的通信的传输路径的各种例子是可能的，并且利用无线电波、红外线等等的无线传输路径和利用缆线连接的有线传输路径都可以例如被使用。也可以使用任何信号格式，并且数字电信号通信、模拟电信号通信、光通信等等是可能的。

存储器部分107包括诸如动态随机存储器(DRAM)的半导体存储器，并且临时记录由图像处理部分102处理的图像数据、以及用于控制部分108的控制程序和各种数据。

控制部分108包括CPU和控制程序，并且控制图像捕获装置100的每个部分。控制程序本身实际存储在存储器部分107中，并且由CPU执行。

操作部分109包括输入装置(诸如包括快门按钮、上/下/左/右箭头键、回车键和取消键、操作拨盘、触摸面板和变焦杆的硬件键)，检测摄影者(用户)的输入操作，并且根据输入操作把信息递送到控制部分108。控制部分108根据操作输入信息决定图像捕获装置100的操作，并且以每个部分执行所需操作的方式发挥控制。

传感器部分110包括陀螺仪传感器、加速度传感器、全球定位系统(GPS)传感器和地磁传感器，并检测各种信息。这些种类的信息被添加到捕获图像数据作为元数据，并且进一步用于各种图像处理和控制处理。

特别地，每当捕获图像时，来自GPS传感器的位置信息就由控制部分108获取，然后添加到图像数据(包括全景图像数据PD)，作为指示图像捕获点的数据(图像捕获点数据)。

[2-2.全景合成处理]

接下来，将详细描述根据本实施例的由图像捕获装置100执行的全景合成处理。

图5示出了作为功能结构的由作为全景合成处理部分102A的图像处理装置102执行的处理，并且示出了在功能结构部件中执行的处理。

被摄体信息检测部分20、接缝确定处理部分21、图像合成部分22和如在单点链线中示出的全景合成准备处理部分23作为功能结构被包括。

在输入用于生成全景图像的一连串n个全景帧图像数据的过程中，被摄体信息检测部分20检测关于各个全景帧图像数据的被摄体信息。

在这个例子中执行运动被摄体检测处理202以及检测与识别处理203。

接缝确定处理部分21通过利用由被摄体信息检测部分20检测到的被摄体信息在最佳位置判定处理中对于每(m+1)个全景帧图像数据组执行获得用作相邻帧图像数据之间的接合处的m个接缝的位置(其中m<n)并且确定m个或更少的接合处的处理(接缝确定处理205)。这个接缝确定处理205在输入一连串n个全景帧图像数据的过程中被顺序执行。

图像合成部分22基于由接缝确定处理部分21确定的接缝合成各个全景帧图像数据，并且执行生成全景图像数据的缝合处理206(其中使用n个全景帧图像数据)。

全景合成准备处理部分23执行例如预处理200、图像配准(registration)处理201和再投影处理204，作为准确全景合成所需的准备处理。

将描述处理。

要经受预处理200的输入图像组代表在用户利用图像捕获装置100捕获全景图像的同时顺序获取的全景帧图像数据FM#0、FM#1、FM#2…。

首先，全景合成准备处理部分23在对用户在全景图像捕获操作中所捕获的图像(每个全景帧图像数据)(在本文已经经受与捕获正常图像时的图像处理相同的图像处理)的全景合成处理之前执行预处理器200。

基于镜头单元110的特性，输入图像受像差影响。特别地，镜头的畸变像差不利地影响图像配准处理201，并且减小对齐的精度。此外，在合成的全景图像中的接缝周围发生伪像，使得畸变像差在这个预处理200中被校正。畸变像差的校正有利地增加了运动被摄体检测处理202以及检测与识别处理203的精度。

接下来，全景合成准备处理部分23对经受了预处理200的帧图像数据执行图像配准处理201。

需要把全景帧图像数据转换为用于全景合成的单个坐标系统中的坐标，并且这单个坐标系统将被称为全景坐标系统。

两个连续的全景帧图像数据在图像配准处理201中在全景坐标系统中被输入并对齐。在图像配准处理201中获取的关于两个全景帧图像数据的信息仅仅是两个图像的坐标之间的关系。但是，如果图像的一个坐标系统(例如，第一全景帧图像数据的坐标系统)被选择，并且选定的坐标系统被固定为全景坐标系统，则所有全景帧图像数据的坐标系统都可以被转换成该全景坐标系统。

图像配准处理201中所执行的具体处理被粗略地分成如下两个：

1.检测图像中的局部运动，及

2.根据检测到的局部运动信息获得整个图像的全局运动。

在处理1中，通常使用以下：

*块匹配，及

*特征点提取和特征点匹配，诸如Harris、Hessian、SIFT、SURF和FAST。

此外，获得图像的特征点的局部向量(局部运动)。

在处理1中获得的局部向量组在处理2中被用作输入，并且使用以下的鲁棒估计技术：

*最小二乘法，

*M-估计器，

*最小中值二乘(LMedS)法，及

*随机采样一致性(RANSAC)。

获得最适于描述两个帧图像数据的坐标系统之间关系的坐标变换矩阵，诸如仿射变换矩阵和投影变换矩阵(单应性)的。这些种类的信息在本文将被称为图像配准信息。

本例中的图像配准处理201或者对两个目标图像的对齐处理(以捕获到的被摄体保持一致的方式对齐两个目标图像的处理)将如下具体地执行。

首先，作为前提，本例中的图像配准处理201采用RANSAC作为鲁棒估计技术。在这种前提下，执行以下处理，以获得指示两个图像之间的最佳位置关系的图像配准信息。

1)检测两个目标图像的特征点(诸如边缘)。

2)比较(匹配)两个图像之间的特征点，并且，检测可以被视为具有相同特征量(向量)的特征点作为对应的点。

3)获取两个图像之间对应点的运动，由此检测局部运动。

4)根据局部运动检测全局运动(整个帧图像如何运动)。

5)通过利用RANSAC的鲁棒估计技术，获得指示两个图像之间的最佳位置关系的坐标变换矩阵(其中捕获的被摄体保持一致)。然后，RANSAC的鲁棒估计技术区分用作背景的特征点(内点(inlier))与用作运动被摄体的特征点(外点(oulier))。

以这种方式获得的坐标变换矩阵以及诸如两个所捕获图像的焦距的相机参数(内部参数)的使用使得可以获得用于三维空间的两个图像之间的坐标变换矩阵。

以这种方式获得的坐标变换矩阵指示两个图像之间的相对关系，但是引入了给定的坐标轴并且定义了绝对坐标系统。这个绝对坐标系统将在本文被称为世界坐标系统。

这个世界坐标系统中的坐标变换矩阵被用作图像对齐信息。

全景合成准备处理部分23执行再投影处理204。

在再投影处理204中，基于在图像配准处理201中获取的图像配准信息，所有全景帧图像数据都被投影到单个平面或单个曲面(诸如圆柱面和球面)上。同时，基于运动被摄体信息以及检测和识别信息，对相同的平面或曲面执行投影。

基于像素处理的优化，可以对全景帧图像数据执行再投影处理204，作为在缝合处理206之前的处理或者缝合处理206的一部分。再投影处理204可以简单地在图像配准处理201之前执行(例如，作为预处理200的一部分)。更简单地，再投影处理204不必执行，而是可以作为圆柱投影处理的近似被对待。

被摄体信息检测部分20对经受了预处理200的每个全景帧图像数据执行运动被摄体检测处理202以及检测和识别处理203。

帧图像数据被合成，作为全景合成处理的特性。因此，所捕获场景中的运动被摄体使得运动被摄体的一部分被分离或模糊，从而导致图像失败或者劣化的图像质量。因此，期望检测运动被摄体，然后决定全景中的接缝，从而避开运动被摄体。

在运动被摄体检测处理202中，两个或更多个连续的全景帧图像数据被输入，并且运动被摄体被检测到。具体而言，例如，如果已经基于在图像配准处理201中获取的图像配准信息实际对齐的两个全景帧图像数据的像素之间的差异值大于或等于给定的阈值，则像素被判定为运动被摄体。

作为替代，在图像配准处理201中的鲁棒估计中被判定为外点的特征点信息可以被用来做判定。

关于所捕获帧图像数据中的人脸或身体、动物等等的位置信息在检测与识别处理203中被检测。人和动物很可能是运动被摄体。即使人和动物不运动，在其上决定的全景接缝也比在其它被摄体上决定的接缝更经常感到视觉上的违和感。从而，期望避开这些被摄体来决定接缝。即，在这个检测与识别处理203中所获取的信息被用作补充来自运动被摄体检测过程202的信息。

来自再投影处理204的图像数据、来自图像配准处理201的图像配准信息、来自运动被摄体检测处理202的运动被摄体信息、以及来自检测与识别处理203的检测和识别信息被用作输入，并且在全景图像中造成更少失败的适当的接缝SM(参考图2和3所描述的接缝SM0至SM(n-2))在由接缝确定处理部分21执行的接缝确定处理205中决定。

首先，用于相邻全景帧图像数据之间的重叠区域的成本函数是根据接缝决定处理205中的输入信息定义的。

例如，通过根据来自运动被摄体检测处理202的每个运动被摄体信息和来自检测与识别处理203的检测和识别信息适当地给重叠区域中的每个像素赋予权重所获取的总值被用作函数值。

在这种情况下，更高的成本函数值意味着诸如运动被摄体和人体的更多被摄体存在于这个点。从而，具有更低成本函数值的一组点被用作接缝，以便最大程度防止全景图像中的失败。

如果n个图像用于全景图像合成，则有n-1个重叠的区域。因此，定义n-1个成本函数。因此，获得其中这n-1个成本函数最小化的组合，以便选择最佳接缝作为整个全景图像。这一般被称为组合优化问题，并且以下解决方案是已知的：

*用于获得确切解决方案的方法

-分支界限法

-记忆

-动态规划

-图形分割

*用于获得近似解决方案的方法

-局部搜索(爬山法)

-模拟退火法

-禁忌搜索

-遗传算法

可以利用这些方法中任何一个获得所有接缝SM1至SM(n-2)。

以这种方式决定的所有接缝SM1至SM(n-2)和相应的全景帧图像数据FM#0至FM#(n-1)被用来在由图像合成部分22执行的缝合处理206中合成最终的全景图像。

对接缝周围的区域执行混合处理，以便改善接合处的不自然，同时对其它区域简单地拷贝像素值或者其它区域仅仅被重新采样到全景坐标系统。此外，所有图像都被接合。

基于相机的抖动量最终修剪垂直于扫描方向的方向上的合成图像的不必要部分，从而提供以扫描方向作为长边方向的广角全景图像(全景图像数据PD)。

<3.连接的流程>

[3-1.概述]

本实施例的目标是通过使用如上所述结构的图像捕获装置100生成向用户提供强临场感和沉浸感的全景图像数据PD，而不对用户强加太重的负担。

为此，本实施例提供了使装置把诸如运动图像和高分辨率图像的其它捕获图像数据自动粘贴和整合到全景图像数据PD的技术。具体而言，能够以所捕获被摄体保持一致的方式与全景图像数据PD对齐的其它捕获图像数据被粘贴到全景图像数据PD，然后呈现全景图像数据PD。

本实施例涉及把要整合的其它捕获图像数据连接到全景图像数据PD的技术(在本实施例采用这种技术的前提下)。

一般而言，对于实现上述技术，以下被用户的使用是可设想的。

首先，让我们假设例如其中用户在相同的站立位置拍摄图像的诸如运动会和各种体育观看的情况。在这种情况下，在相同的站立位置处，用户执行拍摄全景图像和除全景图像之外的图像(诸如运动图像和静止图像)的操作。

用于拍摄全景图像的位置与用于拍摄除全景图像之外的图像的位置之间的大差异造成全景图像与其它图像之间的不一致，并且使集成的图像中的接合处不自然。全景图像与其它图像的图像捕获点的严格定义的同一性意味着捕获这些图像的图像捕获装置的光学系统的光学中心彼此一致。但是，即使存在例如一些误差(包括由相机抖动造成的误差)，也足够可以对齐图像，如根据全景合成处理的描述所理解的。

鉴于这点，用于全景图像和其它图像的图像捕获点不必严格地相同，而仅仅需要对对齐足够的“基本上相同”。

采用上述使用允许图像捕获装置100获取附加了指示基本上相同图像捕获点的图像捕获点数据的全景图像数据PD和其它捕获图像数据。

在这里，运动图像或高分辨率图像作为其它捕获图像数据被拍摄，以便加强临场感和沉浸感。此外，高分辨率图像只需要具有至少比全景图像数据PD更高的分辨率。从而，与全景图像数据PD被拍摄的视角相比，高分辨率图像可以被定义为在长焦端的视角处拍摄的静止图像。

在本例中可以拍摄所谓的多变焦(multi-zoom)图像作为高分辨率图像。即，多变焦图像指在不同视角处拍摄的多个高分辨率图像(但是，与全景图像被拍摄的视角相比，这是在长焦端)。

用作多变焦图像的多个静止图像在本例中作为一组图像组被管理。例如，图像捕获装置100具有用于多变焦图像的图像拍摄模式，并且用户设置图像拍摄模式，然后执行拍摄静止图像的操作，同时顺序地改变视角(改变放大倍率)。图像捕获装置100(控制部分108)管理随同这个图像捕获操作顺序生成的捕获图像数据，作为用作多变焦图像数据的一组图像组数据。

图6是用于描述执行直到全景图像和其它图像彼此连接为止的处理的概述的图。图6具体而言示出了作为功能结构的根据实施例的由图像处理装置1执行的处理，并且示出了在功能结构部件中执行的处理。

图像处理装置1至少具有对齐判定处理部分2的功能和连接处理部分3的功能。

对齐判定处理部分2执行以下处理：判定除全景图像数据PD之外的其它捕获图像数据是否能够以捕获的被摄体在全景图像数据PD与所述其它捕获图像数据之间保持一致的方式与全景图像数据PD对齐。

连接处理部分3执行把由对齐判定处理部分2判定为能够与全景图像数据PD对齐的其它捕获图像数据连接到全景图像数据PD的处理(图像连接处理)。

期望要由对齐判定处理部分2处理的其它捕获图像数据基于与用于全景图像数据PD的图像捕获点的关系被预先选择。这是因为，从增加处理负担的观点来看，不希望对除全景图像数据PD之外的所有其它捕获图像数据执行对齐处理。

因此，根据本例的图像处理装置1包括捕获图像选择处理部分0，捕获图像选择处理部分0在对齐判定处理部分2执行对齐判定处理之前从记录在记录装置108中的捕获图像数据中选择要经受对齐判定处理的全景图像数据PD和其它捕获图像数据。

根据本例的捕获图像选择处理部分0执行从记录在记录装置中的捕获图像数据中选择附加了指示相同图像捕获点的图像捕获点数据的全景图像数据PD和其它捕获图像数据的处理。如以上所讨论的，然后根据是否可以对齐来设置用于判定图像捕获点同一性的标准。

此外，捕获图像选择处理部分0可以是使用户选择在相同的图像捕获点捕获的其它捕获图像数据的处理。具体而言，捕获图像选择处理部分0在这种情况下变成其中控制部分108基于来自操作部分109的操作输入信息从记录在记录装置108中的捕获图像数据中选择全景图像数据PD和其它捕获图像数据的处理。

此外，为了防止对齐判定处理的处理负担增加，捕获图像选择处理部分0不是必要部件。

例如，如果安装了用于生成要整合其它捕获图像的全景图像的图像拍摄模式，并且在图像捕获模式被设置时捕获的全景图像数据PD和其它捕获图像数据被识别为要由对齐判定处理部分2处理的图像，则不需要对所有其它记录的捕获图像数据执行对齐判定处理。因此，也可以防止处理负担增加。以这种方式，捕获图像选择处理部分0不是必要部件，因此，由于这个原因，图6用虚线示出了捕获图像选择处理部分0。

[3-2.关于对齐判定处理]

将详细地描述由对齐判定处理部分2执行的对齐判定处理。

对齐判定处理可以具有任何具体的处理内容，只要判定其它捕获图像数据是否能够以所捕获被摄体保持一致的方式与全景图像数据PD对齐就可以。

在本例中，图像捕获装置100具有作为图像配准处理的对齐处理功能，使得利用这个对齐处理功能判定其它捕获图像数据是否能够对齐。

具体而言，图像配准处理在本例中被用来如下判定其它捕获图像数据是否能够对齐。

首先，图像配准处理以全景图像数据PD和要与该全景图像数据PD对齐的捕获图像数据的这两个图像开始。

在这个图像配准处理中首先判定检测到的特征点的数量是否小于预定值。如果结果判定检测到的特征点的数量小于该预定值，则判定目标捕获图像数据不能与全景图像数据PD对齐。

检测到的特征点的数量小于预定值意味着缺乏特征的均匀图像。因此，不可能对于这种图像检测到合适的对应点或者关于被摄体的运动获取足够的信息，所以目标捕获图像数据不能对齐。

相反，如果判定检测到的特征点的数量大于或等于预定值，则判定检测到的对应点的数量是否小于预定值。如果结果判定检测到的对应点的数量小于该预定值，则判定目标捕获图像数据不能与全景图像数据PD对齐。

检测到的对应点的数量小于预定值意味着可以被认为在两个目标图像之间相同的特征点的数量少。如果对应点的数量少，则不可能获取关于被摄体的运动的足够信息。从而，目标捕获图像数据不能够对齐。

如果判定检测到的特征点的数量和对应点的数量大于或等于相应的预定值，则判定在RANSAC的鲁棒估计的处理中所获取的检测到的内点的数量是否小于预定值。如果检测到的内点的数量小于预定值，则判定目标捕获图像数据不能与全景图像数据PD对齐。

检测到的内点的数量小于预定值意味着指示要被用作对齐的标准的全局运动(即，背景的运动)的特征点的数量少。因此，这种图像不能对齐。

让我们假设在本实施例中可以与全景图像数据PD整合的其它捕获图像数据的类型可以被分成三种类型：运动图像数据、多变焦数据以及单个静止图像的数据。

对齐判定方法在本例中根据其它捕获图像数据的这些类型而改变。

首先，将描述运动图像数据。

运动图像数据需要动态摄影技术(诸如摇摄、倾斜和变焦)，使得对于运动图像数据相当难以执行图像配准处理。而且，运动图像数据原本就需要大量的帧图像，并且相对大量的帧图像可能不能与全景图像对齐。

就此而言，以下对齐判定方法被用于运动图像数据。

即，包括在运动图像数据中的帧图像数据在上述技术中顺序地经受关于全景图像数据PD的对齐判定处理。然后判定被判定为不能对齐的连续的帧图像数据的数量(这在以下将被描述为连续数量计数值FCcnt)是否大于或等于预定阈值FCth。如果判定连续数量计数值FCcnt大于或等于阈值FCth，则判定整个运动图像数据不能与全景图像数据PD对齐。

即使连续数量计数值FCcnt不是大于或等于阈值FCth，只要在对所有帧图像数据的对齐判定(帧的总数将在以下表示为J)完成之后被判定为不能对齐的帧图像数据的数量(这将被描述为计数值Fcnt)与包括在运动图像中的所有帧图像数据之比大于或等于预定阈值Fth，就判定整个运动图像数据不能与全景图像数据PD对齐。

同时，多变焦图像需要相对高的对齐精度，因为用户专注于享受高分辨率图像。因此，对于多变焦图像，包括在多变焦图像数据中的图像数据在上述技术中顺序地经受关于全景图像数据的对齐处理，并且在存在被判定为不能对齐的任何一个图像数据的时候判定整个多变焦图像数据不能与全景图像数据PD对齐。

如上所述，运动图像数据不太可能让所有帧图像数据都成功对齐，因此设置低对齐判定标准来方便运动图像整合。

同时，作为高分辨率图像的多变焦图像需要为了准确的对齐而设置高对齐判定标准。

为了确认，运动图像可以把注意力吸引到帧中的运动物体上并且容忍少量的对齐误差，使得可以如上所述设置低判定标准。

对于单个静止图像的数据，对静止图像数据执行关于捕获的全景图像数据的对齐处理，并且只有结果被判定为能够对齐的静止图像数据简单地连接到全景图像数据。

期望单个静止图像的数据也作为高分辨率图像被捕获，以加强当被整合时的临场感和沉浸感。因此，在本例中假设使用作为高分辨率图像的静止图像数据。

[3-3.关于连接处理]

当完成时，对齐判定处理提供指示每个其它捕获图像数据能够/不能与全景图像数据PD对齐的判定结果。

在对齐判定处理中被判定为能够与全景图像数据PD对齐的其它捕获图像数据在由连接处理部分3执行的连接处理中连接到全景图像数据PD。指示连接的信息可以采取任何特定的形式，只要它可以指示附加了该信息的全景图像数据PD和其它捕获图像数据是能够对齐的图像组就可以。

作为例子，在本实施例中，通用唯一标识符(UUID)被用作连接信息。具体而言，为要经受对齐判定处理的每个全景图像数据生成一个UUID，并且所生成的UUID添加到全景图像数据PD以及被判定为能够与全景图像数据PD的对齐的其它捕获图像数据。

作为连接信息的添加的具体实例，UUID50嵌入到每个图像数据(图像文件)中作为元信息，例如，如图7A中所示。图7A示出了其中两个全景图像数据PD经受对齐处理并且生成两种类型的UUID50：UUID50-1和UUID50-2的情况。在该图的例子中，图像文件F1至F3作为包括全景图像数据PD和被判定为能够与全景图像数据PD对齐的其它捕获图像数据的图像组被对待，而图像文件F8至F15作为包括另一全景图像数据PD和被判定为与该全景图像数据PD对齐的其它捕获图像数据的图像组被对待。在这种情况下，UUID50-1嵌入到并连接到图像文件F1至F3。同时，UUID50-2嵌入到并连接到图像文件F8至F15。

作为替代，如图7B中所示，连接信息还可以被实现为用于管理被判定为能够对齐的图像组的管理信息。

具体而言，图7B的例子示出了形式为管理信息的连接的实例，其中关于图像文件名的信息与每个UUID50关联。

当执行对齐判定处理时，在本实施例中对齐处理作为图像配准处理被执行。因此，可以获取关于被判定为能够相对于全景图像数据对齐的其它图像数据的对齐信息(世界坐标系统中的坐标变换矩阵)。

这种对齐信息在本实施例中还添加到被判定为能够对齐的其它捕获图像数据。添加对齐信息的具体技术没有被特别限制，但是可以采用把对齐信息嵌入到图像文件中作为元数据的技术，例如，以与连接信息相同的途径、以及管理与UUID50关联的对齐信息的技术。

当用作运动图像或多变焦图像并且包括多个静止图像的图像被集成时，每个被包括的图像都需要对齐信息。因此，对齐信息添加到在运动图像或多变焦图像中所包括的每个图像。

如果采用上述对齐判定方法，则运动图像还包括被判定为不能够对齐的帧图像。基于关于被判定为能够对齐的帧图像的对齐信息的对齐信息可以添加到不具有对齐信息的帧图像。

具体而言，例如，可以想到至少在被判定为不能对齐的帧图像之前或之后的关于被判定为对齐的帧图像的对齐信息被补充并使用。作为替代，可以对于至少在被判定为不能对齐的帧图像之前或之后的被判定为能够对齐的帧图像原样使用对齐信息。

<4.处理过程>

为了实现如上所述根据本实施例的图像处理而被执行的具体处理的过程将参考图8至10来描述。

图8至10每个都示出了其中几个控制元素被添加到主要由图6中所示的各功能结构执行的处理元素。已经参考图6描述的处理元素在图8至10中所示的处理中用相同的标号指示，并且将不再重复地详细描述。

在以下描述中，“对齐处理”由图像处理部分102的对齐处理部分102A执行。其它处理可以由图像处理部分102和控制部分108当中任何一个执行。作为具体的例子，在本例中，捕获图像选择处理(S101)由控制部分108执行，并且其它处理全都由图像处理部分102执行。

在图8的步骤S101中，执行所捕获图像选择处理。即，选择要经受对齐判定处理的捕获图像数据。如以上所讨论的，这里选择捕获图像数据的处理可以被解释为让图像捕获装置100基于附加到全景图像数据PD和其它捕获图像数据的图像捕获点数据主动选择捕获图像数据的处理，或者基于来自操作部分109的操作输入信息选择图像数据以便使用户选择在基本上相同的点捕获的图像的处理。

在步骤S102中，设置要对齐的图像数量＝I。作为要对齐的图像数量I，设置与在步骤S101中的选择处理中选定的除全景图像数据PD之外的其它捕获图像数据的数量。

接下来，在步骤S103中，设置处理目标图像标识符i＝1。这个处理目标图像标识符i是用于标识要经受对齐判定处理的其它捕获图像数据的信息。在步骤S103中，设置处理目标图像标识符i＝1，由此设置在步骤S101中选择的I个其它捕获图像数据当中i＝第一个的捕获图像数据，作为要经受对齐判定处理的图像数据。

接下来，在步骤S104中，判定第i个图像是否是单个静止图像的数据。

如果获得指示第i个图像是单个静止图像的数据的肯定结果，则执行用步骤S105指示并且用虚线包围的用于单个静止图像的判定和连接处理。

即，相对于全景图像对第i个图像的对齐处理在步骤S106中开始，然后在步骤S107中，判定第i个图像是否能够对齐。如以上所讨论的，在本例中基于在对齐处理的过程中获得的所检测到的特征点、对应点和内点的数量判定第i个图像是否不能对齐。

如果在步骤S107中获得指示第i个图像不能对齐的否定结果，则在步骤S108中对第i个图像和全景图像执行连接处理。此外，在步骤S109中，对对齐信息执行添加处理。即，作为在步骤S106中开始的对齐处理的结果所获得的对齐信息被添加到第i个图像(在这种情况下是单个静止图像的数据)。在步骤S109中执行添加处理之后，处理前进到步骤S113。

相反，如果在步骤S107中获得指示第i个图像能够对齐的肯定结果，则处理前进到步骤S113，而不通过步骤S108中的连接处理和步骤S109中的添加处理。

在步骤S113中，判定处理目标图像标识符i的值是否大于或等于要对齐的图像数量I的值。如果获得的指示处理目标图像标识符i的值大于或等于要对齐的图像数量I的值的肯定结果，则意味着对所有处理目标图像的处理已经完成。因此，在这个情况下，根据本实施例的图像处理完成。

相反，如果获得指示处理目标图像标识符i的值不是大于或等于要对齐的图像数量I的值的否定结果，则处理目标图像标识符i的值在步骤S114中增加(i←i+1)，然后处理返回到步骤S104，以继续对剩余图像的处理。

如果在步骤S104中获得指示第i个图像不是单个静止图像的数据的否定结果，则在步骤S110中判定第i个图像是否是运动图像。

如果获得指示第i个图像是运动图像的肯定结果，则对于运动图像的判定和连接处理在步骤S111中执行，然后处理前进到上述步骤S113。

相反，如果获得指示第i个图像是运动图像的肯定结果，则在步骤S112中执行对于多变焦图像的判定和连接处理，然后以相同的方式处理前进到步骤S113。

图9示出了作为步骤S111中对于运动图像的判定和连接处理执行的处理的过程。

首先，在图9的步骤S201中，设置总帧数＝J。即，包括在用作第i个图像的运动图像数据中的帧图像数据的总数被设置为帧的总数J的值。

接下来，在步骤S202中，不能对齐的帧的数量的计数值Fcnt被复位成0，并且在步骤S203中，不能对齐的连续帧的数量的计数值FCcnt也被复位成0。

此外，在步骤S204中，设置处理目标帧标识符j＝1，并且相对于全景图像对第j帧的对齐处理在步骤S205中开始。

接下来，在步骤S206中，判定第j帧图像是否不能够对齐。

如果获得指示第j帧图像不能对齐的肯定结果，则用于计数值Fcnt和FCcnt的处理在步骤S207至S211中执行。

具体而言，第j帧图像是不能对齐的帧图像，使得计数值Fcnt在步骤S207中增加(Fcnt←Fcnt+1)。

接下来，在步骤S208中，判定前一帧(即，第j-1帧)是否也不能对齐。如果获得指示前一帧不是不能对齐的否定结果，则处理前进到步骤S209，以便把计数值FCcnt复位成0，然后处理前进到步骤S212。即，不能对齐的帧的连续性停止，使得FCcnt复位成为0。

相反，如果获得指示前一帧也不能对齐的肯定结果，则处理前进到步骤S210，以增加计数值FCcnt(FCcnt←FCcnt+1)。

接下来，在步骤S211中，判定计数值FCcnt是否大于或等于阈值FCth。如果获得指示计数值FCcnt不是大于或等于阈值FCth的否定结果，则处理前进到步骤S212。相反，如果获得指示计数值FCcnt大于或等于阈值FCth的肯定结果，则这个图中所示的判定和连接处理完成。即，作为结果，不能对齐的连续帧的数量大于或等于预定值的运动图像数据不被连接到全景图像数据PD。

如果在步骤S206中获得指示第j帧图像不能对齐的否定结果，则处理前进到步骤S212，而不通过步骤S207至S211中的处理。

在步骤S212中，判定处理目标帧标识符j的值是否大于或等于帧的总数J的值。如果获得指示处理目标帧标识符j的值不是大于或等于帧的总数J的值的否定结果，则处理目标帧标识符j的值在步骤S213中增加(j←j+1)，然后处理返回步骤S205。因此，对下一个帧图像执行上述步骤S205之后的处理。

相反，如果在步骤S212中获得指示处理目标帧标识符j的值大于或等于帧的总数J的值的肯定结果，则处理前进到步骤S214，以判定是否满足Fcnt/J≥Fth。即，判定用作第i个图像的运动图像数据中被判定为不能对齐的帧图像的数量(Fcnt)与帧的总数(J)之比是否大于或等于预定值Fth。

如果在步骤S214中获得指示Fcnt/J≥Fth未被满足的否定结果，则处理前进到步骤S215，以便对第i个图像(即，在这种情况下，用作运动图像数据的图像文件)和全景图像执行连接处理。

在步骤S216中，随后对对齐信息执行添加处理。即，基于对齐处理所获得的对齐信息添加到用作第i个图像的运动图像数据中所包括的每个帧图像数据。

此外，如上所述，基于为已经成功对齐的帧图像获得的对齐信息的对齐信息被添加到未能与全景图像对齐的帧图像(被判定为不能对齐)。

如果运动图像数据具有大于或等于预定值的不能对齐的连续帧的数量，或者如果运动图像数据中不能对齐的帧数与总帧数之比大于或等于预定值，则在上述处理中判定整个运动图像数据不能与全景图像数据PD对齐，并且运动图像数据不连接到全景图像数据PD。

图10示出了作为步骤S112中对于多变焦图像的判定和连接处理执行的处理的过程。

首先，在步骤S301中，图像总数被设置为T。即，图像总数T的值被设置为包括在作为第i个图像的多变焦图像中的静止图像数据的总数。

此外，在步骤S302中，设置处理目标静止图像标识符t＝1，并且相对于全景图像对第t个静止图像的对齐处理在步骤S303中开始。

接下来，在步骤S304中，判定第t个静止图像是否不能对齐。

如果获得指示第t个静止图像不能对齐的肯定结果，则在这个图中示出的判定和连接处理完成。因此，如果多变焦图像包括任何一个不能对齐的静止图像，则判定整个多变焦图像不能与全景图像数据对齐，并且该多变焦图像不被连接到全景图像数据PD。

相反，如果在步骤S304中获得指示第t个静止图像不是不能对齐的否定结果，则处理前进到步骤S305，以判定处理目标静止图像标识符t的值是否大于或等于图像总数T的值。如果获得指示处理目标静止图像标识符t的值不是大于或等于图像总数T的值的否定结果，则在步骤S306中处理目标静止图像标识符t的值增加(t←t+1)，然后处理返回步骤S303。因此，只要可获得能够对齐的静止图像，就重复执行对齐判定处理，直到到达第T个静止图像为止。

如果在步骤S305中获得指示处理目标静止图像标识符t的值大于或等于图像总数T的值的肯定结果，则在步骤S307中对第i个图像和全景图像执行连接处理。即，包括在用作第i个图像的多变焦图像数据中的所有静止图像数据(图像文件)都连接到全景图像数据PD。

在步骤S308中，对对齐信息执行添加处理。即，由于对包括在用作第i个图像的多变焦图像数据中的个体静止图像数据执行对齐处理所获得的对齐信息被添加到所述个体静止图像数据。

<5.结论>

如上所述，在本实施例中判定除全景图像数据PD之外的其它捕获图像数据是否能够以所捕获被摄体在全景图像数据PD与其它捕获图像数据之间保持一致的方式与全景图像数据PD对齐，并且被判定为能够与全景图像数据PD对齐的其它捕获图像数据连接到全景图像数据PD。

这允许被判定为能够与全景图像数据PD对齐的其它捕获图像数据连接到全景图像数据PD。

因此，为了集成捕获图像(诸如除捕获的全景图像之外的运动图像和高分辨率图像)，并且为了生成提供加强的临场感和沉浸感的全景图像，用户只需要在基本相同的图像捕获点处拍摄全景图像和其它捕获图像。因此，可以在不向用户强加太重负担的情况下生成向用户提供更强临场感和沉浸感的全景图像。

在本实施例中，其它捕获图像数据包括运动图像数据和用作与捕获全景图像数据PD的全景图像时设定的视角相比在位于长焦端的视角处捕获的高分辨率图像数据的静止图像数据中的任何一种。

运动图像或高分辨率图像对于整合到捕获的全景图像中是优选的，以增强临场感和沉浸感。因此，可以更可靠地生成提供强临场感和沉浸感的全景图像。

此外，对齐判定方法在本实施例中根据其它捕获图像数据的图像类型而改变。

这允许根据图像类型使用适当的对齐判定方法。

而且，在本实施例中，用比静止图像数据的判定标准更低的判定标准，对运动图像数据作出对齐判定。

如以上所讨论的，按照特性，运动图像数据可以包括相对大量的未能对齐的帧图像。因此，对于运动图像数据设置低对齐判定标准允许根据运动图像数据的特性用判定标准作出对齐判定。

具体而言，如果连续地判定预定数量或更多的帧图像数据不能对齐，或者如果被判定为不能对齐的帧图像数据的数量与总帧数之比大于或等于预定值，则在本实施例中判定整个运动图像数据不能与捕获的全景图像数据对齐。

这允许基于不能对齐的连续帧图像的数量和与总帧数之比来利用合适的判定标准对运动图像作出对齐判定。

如果其它捕获图像数据是多变焦图像数据，则判定包括在多变焦图像数据中的每个静止图像数据是否能够与全景图像数据PD对齐，并且在本实施例中被判定为不能对齐的静止图像数据不连接到全景图像数据PD。

如以上所讨论的，多变焦图像需要相对高的对齐精度，因为用户专注于到享受高分辨率图像。因此，以上述方式被判定为不能对齐的静止图像不被连接，由此满足关于高分辨率图像的对齐精度的需求。

此外，如果多变焦图像数据包括作为对包括在多变焦图像数据中的每个静止图像数据的对齐判定的结果而被判定为不能对齐的静止图像数据，则在本实施例中判定整个多变焦图像数据都不能与全景图像数据PD对齐。即，除非判定多变焦图像数据中所包括的全部静止图像都能够对齐，否则，即使存在能够对齐的静止图像，也没有静止图像连接到全景图像数据。

如果只有包括在多变焦图像中并且被判定为能够对齐的静止图像被连接并整合到全景图像数据PD中，则当多变焦图像中被整合的部分被多变焦时变焦水平的差异将变得更大。同时，如果如上所述在存在被判定为不能对齐的静止图像的情况下判定整个多变焦图像都不能对齐(即，除非所有静止图像都能够对齐，否则整个多变焦图像都不连接到全景图像数据PD)，则可以防止变焦水平的这种差异。

而且，在本实施例中的对齐判定处理中基于通过执行检测两个目标图像中的特征点和对应点、基于检测到的对应点的坐标检测局部和全局运动、以及以鲁棒估计方法检测两个图像之间的最佳位置关系的图像配准处理所获得的结果判定两个目标图像是否能够对齐。

因此，不需要为了获取用于与全景图像整合所需的对齐信息而单独执行对齐处理。

如果具有全景合成功能的图像捕获装置(就像图像捕获装置100)执行对齐判定处理，则为全景合成功能所安装的对齐处理部分也可以用于对齐判定处理。因此，不需要单独安装用于对齐判定处理的对齐处理部分。

此外，在本实施例中判定检测到的特征点的数量被判定为小于预定值的捕获图像数据是不能对齐的。

如以上所讨论的，检测到的特征点的数量小于预定值意味着缺乏特征的均匀图像。因此，如上所述，判定检测到的特征点的数量被判定为小于预定值的捕获图像数据不能对齐使得可以做出合适的对齐判定。

此外，在本实施例中判定检测到的对应点的数量被判定为小于预定值的捕获图像数据是不能对齐的。

如以上所讨论的，检测到的对应点的数量被判定为小于预定值意味着可以被认为在两个图像之间相同的特征点少。因此，如上所述，判定检测到的对应点的数量被判定为小于预定值的捕获图像数据不能对齐使得可以作出合适的对齐判定。

此外，在本实施例中判定在RANSAC的鲁棒估计处理的过程中所获得的检测到的内点的数量小于预定值的捕获图像数据是不能对齐的。

检测到的内点的数量小于预定值的意味着指示要被用作对齐的标准的全局运动(即，背景的运动)的特征点少。因此，如上所述，判定检测到的内点的数量小于预定值的捕获图像数据不能对齐使得可以作出合适的对齐判定。

而且，在本实施例中执行选择要在对齐判定处理中处理的全景图像数据PD和其它捕获图像数据的处理。

因此，在对齐判定处理中只需要对在这个选择处理中选定的全景图像数据PD和其它捕获图像数据执行判定处理。即，可以减轻对齐判定处理的处理负担。

在本实施例中，关于全景图像数据PD的对齐信息添加到被判定为能够对齐的其它捕获图像数据。

需要对齐信息来整合全景图像数据PD和其它捕获图像数据(把其它捕获图像数粘贴到全景图像数据PD并再现它们)。因此，根据对齐判定处理的结果附加对齐信息允许整合器(再现器)获取对齐信息，而无需单独地执行对齐处理，从而减轻了整合器的处理负担。

<6.程序>

根据实施例的程序使信息处理装置执行：判定除捕获的全景图像数据之外的其它捕获图像数据是否能够以捕获的被摄体在捕获的全景图像数据与其它捕获图像数据之间保持一致的方式与捕获的全景图像数据对齐的对齐判定处理，以及把在对齐判定处理中被判定为能够与捕获的全景图像数据对齐的其它捕获图像数据连接到捕获的全景图像数据的图像连接处理。

具体而言，例如，程序使用作图像处理部分102、控制部分108等等的信息处理装置执行参考图8至10所述的处理。

可以预先把根据实施例的程序记录在例如用作内置到图像捕获装置100以及其它信息处理装置和图像处理装置中的记录介质的硬盘驱动器(HDD)、或者包括CPU的微型计算机中的ROM中。

作为替代，程序还可以临时或持久地存储(记录)在可移除记录介质中，诸如柔性盘、紧致盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用盘(DVD)、磁盘以及半导体存储器。

这种可移除记录介质可以作为所谓的封装软件来提供。例如，通过CD-ROM或DVD-ROM提供程序允许诸如个人计算机的信息处理装置安装程序并执行上述对齐判定处理和图像连接处理。

此外，程序不仅可以从可移除记录介质安装，而且可以经由诸如局域网(LAN)和互联网的网络从下载站点下载。

以这种方式安装程序允许例如通用个人计算机(PC)用作根据本技术的图像处理装置。

程序或者其上记录了程序的记录介质使得可以容易地实现达成上述有利效果的图像处理装置。

<7.修改>

此外，本技术不应当局限于上述具体例子，而是各种修改都可以。

例如，到目前为止已经描述了图像捕获装置100既用作生成全景图像数据PD和其它捕获图像数据的装置又用作对那些图像数据执行对齐判定处理的装置，但是同一装置不必既生成(捕获)要经受对齐判定处理的全景图像数据PD和其它捕获图像数据又自己执行对齐判定处理。具体而言，例如，可以把由图像捕获装置100生成的全景图像数据PD和其它捕获图像数据传送到诸如PC的另一个计算机装置70，并且使计算机装置70对所传送的全景图像数据PD和其它捕获图像数据执行对齐判定处理和图像连接处理。

图11是示出执行对齐判定处理和图像连接处理的计算机装置70的结构例的图。

图11示出计算机装置70的CPU71根据存储在ROM72中的程序或者从存储部分78加载到RAM73的程序执行各种处理。根据需要，RAM73存储CPU71执行各种处理所需的数据等等。

CPU71、ROM72和RAM73经由总线74彼此连接。总线74还连接到输入/输出接口75。

输入/输出接口75连接到包括键盘和鼠标的输入部分76，包括阴极射线管(CRT)、LCD或有机EL面板的显示器、包括扬声器的输出部分77、包括硬盘的存储部分78、以及包括调制解调器的通信部分79。通信部分79经由包括互联网的网络执行通信处理。

根据需要，输入/输出接口75连接到驱动器80，并且具有根据需要安装在其上的诸如磁盘、光盘或半导体存储器的可移除介质81。从其读出的全景图像数据PD和其它捕获图像数据被存储在存储部分78中。

在这种情况下，用于执行对齐判定处理和图像连接处理的程序从网络或记录介质安装。

根据这种程序操作CPU71允许实现对齐判定处理和图像连接处理。

此外，例如，在一些情况下，云计算中的服务器装置用作计算机装置70。

到目前为止已经判定，只有当判定多变焦图像中所包括的全部静止图像都能够对齐时，整个多变焦图像才能够与全景图像对齐。即，只有当判定多变焦图像中所包括的全部静止图像都能够对齐时，多变焦图像才连接到全景图像。

但是，作为替代，如果有任何一个静止图像被判定为能够对齐，则可以单独地对该静止图像执行连接处理。

在本技术中，在多变焦图像中所包括的静止图像之中，至少被判定为不能对齐的静止图像不连接到全景图像。这可以满足如上讨论的高分辨率图像的对齐精度的要求。

到目前为止已经描述了执行对齐处理(图像配准处理)以及基于在该过程中所获取的信息执行对齐判定处理。但是，可以判定捕获图像数据是否能够与全景图像数据对齐，即使它自己不执行对齐处理。

本技术可以优选地应用到通过捕获所谓的多行图像来生成的全景图像数据。

<8.本技术>

此外，本技术也可以按以下配置。

(1)一种图像处理装置包括：

对齐判定处理部分，配置为判定除捕获的全景图像数据之外的其它捕获图像数据是否能够以捕获的被摄体在捕获的全景图像数据和其它捕获图像数据之间保持一致的方式与捕获的全景图像数据对齐；及

图像连接处理部分，配置为将由对齐判定处理部分判定为能够与捕获的全景图像数据对齐的其它捕获图像数据连接到捕获的全景图像数据。

(2)如根据(1)所述的图像处理装置，

其中其它捕获图像数据包括运动图像数据和静止图像数据中的任何一种，其中，静止图像数据用作与用于捕获所述捕获的全景图像数据的全景图像的设定视角相比在长焦端的视角处捕获的高分辨率图像数据。

(3)如根据(2)所述的图像处理装置，

其中对齐判定处理部分根据其它捕获图像数据的图像类型改变判定方法。

(4)如根据(3)所述的图像处理装置，

其中其它捕获图像数据包括运动图像数据和静止图像数据两者，及

其中对齐判定处理部分用比静止图像数据的判定标准低的判定标准来判定运动图像数据。

(5)如根据(4)所述的图像处理装置，

其中，当连续地判定预定数量或更多的帧图像数据不能对齐时，或者当被判定为不能对齐的帧图像数据的数量与帧的总数量之比大于或等于预定值时，对齐判定处理部分判定整个运动图像数据不能与捕获的全景图像数据对齐。

(6)如根据(1)至(4)中任何一项所述的图像处理装置，

其中，其它捕获图像数据包括多变焦图像数据，所述多变焦图像数据包括与用于捕获所述捕获的全景图像数据的全景图像的设定视角相比在长焦端的多个视角处分别捕获的静止图像数据，

其中，当其它捕获图像数据是多变焦图像数据时，对齐判定处理部分判定在多变焦图像数据中所包括的每个静止图像数据是否能够与捕获的全景图像数据对齐，及

其中连接处理部分不将由对齐判定处理部分判定为不能与捕获的全景图像数据对齐的静止图像数据的连接到捕获的全景图像数据。

(7)如根据(6)所述的图像处理装置，

其中对齐判定处理部分判定在多变焦图像数据中所包括的每个静止图像数据是否能够与捕获的全景图像数据对齐，并且在存在结果被判定为不能与捕获的全景图像数据对齐的静止图像数据的情况下判定整个多变焦图像数据不能与捕获的全景图像数据对齐。

(8)如根据(1)至(7)中任何一项所述的图像处理装置，

其中对齐判定处理部分基于通过执行检测两个目标图像中的特征点和对应点、基于检测到的对应点的坐标检测局部和全局运动、以及用鲁棒估计方法检测两个图像之间的最佳位置关系的图像配准处理所获得的结果，判定两个目标图像是否能够彼此对齐。

(9)如根据(8)所述的图像处理装置，

其中对齐判定处理部分判定检测到的特征点的数量小于预定值的捕获图像数据是不能对齐的。

(10)如根据(8)或(9)所述的图像处理装置，

其中对齐判定处理部分判定检测到的对应点的数量小于预定值的捕获图像数据是不能对齐的。

(11)如根据(8)至(10)中任何一项所述的图像处理装置，

其中对齐判定处理部分在图像配准处理中执行RANSAC的鲁棒估计处理，并判定在鲁棒估计处理的过程中所获得的检测到的内点的数量小于预定值的捕获图像数据是不能对齐的。

(12)如根据(1)至(11)中任何一项所述的图像处理装置，还包括：

选择处理部分，配置为选择要由对齐判定处理部分处理的捕获的全景图像数据和其它捕获图像数据。

(13)如根据(1)至(12)中任何一项所述的图像处理装置，还包括：

对齐信息添加处理部分，配置为将关于捕获的全景图像数据的对齐信息添加到由对齐判定处理部分判定为能够对齐的其它捕获图像数据。

标号列表

0捕获图像选择处理部分

1图像处理装置

2对齐判定处理部分

3连接处理部分

50-1，50-2UUID

71CPU

102图像处理部分

102A全景合成处理部分

108控制部分

201图像配准处理部分

Claims

1.一种图像处理装置，包括：

对齐判定处理部分，配置为判定除捕获的全景图像数据之外的其它捕获图像数据是否能够以捕获的被摄体在所述捕获的全景图像数据与所述其它捕获图像数据之间保持一致的方式与所述捕获的全景图像数据对齐；及

图像连接处理部分，配置为将由所述对齐判定处理部分判定为能够与所述捕获的全景图像数据对齐的所述其它捕获图像数据连接到所述捕获的全景图像数据。

2.如权利要求1所述的图像处理装置，

其中所述其它捕获图像数据包括运动图像数据和静止图像数据中的任何一种，其中，所述静止图像数据用作与用于捕获所述捕获的全景图像数据的全景图像的设定视角相比在长焦端的视角处捕获的高分辨率图像数据。

3.如权利要求2所述的图像处理装置，

其中对齐判定处理部分根据所述其它捕获图像数据的图像类型改变判定方法。

4.如权利要求3所述的图像处理装置，

其中所述其它捕获图像数据包括所述运动图像数据和所述静止图像数据两者，及

其中所述对齐判定处理部分用比所述静止图像数据的判定标准低的判定标准来判定运动图像数据。

5.如权利要求4所述的图像处理装置，

其中，当连续地判定预定数量或更多的帧图像数据不能对齐时，或者当被判定为不能对齐的帧图像数据的数量与帧的总数量之比大于或等于预定值时，所述对齐判定处理部分判定整个运动图像数据不能与所述捕获的全景图像数据对齐。

6.如权利要求4所述的图像处理装置，

其中，所述其它捕获图像数据包括多变焦图像数据，所述多变焦图像数据包括与用于捕获所述捕获的全景图像数据的全景图像的设定视角相比在长焦端的多个视角处分别捕获的静止图像数据，

其中，当所述其它捕获图像数据是多变焦图像数据时，所述对齐判定处理部分判定在所述多变焦图像数据中所包括的每个静止图像数据是否能够与所述捕获的全景图像数据对齐，及

其中所述连接处理部分不将由所述对齐判定处理部分判定为不能与所述捕获的全景图像数据对齐的静止图像数据连接到所述捕获的全景图像数据。

7.如权利要求6所述的图像处理装置，

其中所述对齐判定处理部分判定在所述多变焦图像数据中所包括的每个静止图像数据是否能够与所述捕获的全景图像数据对齐，并且在存在结果被判定为不能与所述捕获的全景图像数据对齐的静止图像数据的情况下判定整个多变焦图像数据不能与所述捕获的全景图像数据对齐。

8.如权利要求1所述的图像处理装置，

其中所述对齐判定处理部分基于通过执行检测两个目标图像中的特征点和对应点、基于检测到的对应点的坐标检测局部和全局运动、以及用鲁棒估计方法检测所述两个图像之间的最佳位置关系的图像配准处理所获得的结果，判定所述两个目标图像是否能够彼此对齐。

9.如权利要求8所述的图像处理装置，

其中所述对齐判定处理部分判定检测到的特征点的数量小于预定值的捕获图像数据是不能对齐的。

10.如权利要求8所述的图像处理装置，

其中所述对齐判定处理部分判定检测到的对应点的数量小于预定值的捕获图像数据是不能对齐的。

11.如权利要求8所述的图像处理装置，

其中所述对齐判定处理部分在所述图像配准处理中执行RANSAC的鲁棒估计处理，并判定在所述鲁棒估计处理的过程中所获得的检测到的内点的数量小于预定值的捕获图像数据是不能对齐的。

12.如权利要求1所述的图像处理装置，还包括：

选择处理部分，配置为选择要由所述对齐判定处理部分处理的所述捕获的全景图像数据和所述其它捕获图像数据。

13.如权利要求1所述的图像处理装置，还包括：

对齐信息添加处理部分，配置为将关于所述捕获的全景图像数据的对齐信息添加到由所述对齐判定处理部分判定为能够对齐的所述其它捕获图像数据。

14.一种图像处理方法，包括：

对齐判定过程，判定除捕获的全景图像数据之外的其它捕获图像数据是否能够以捕获的被摄体在所述捕获的全景图像数据和所述其它捕获图像数据之间保持一致的方式与所述捕获的全景图像数据对齐；及

图像连接过程，将在所述对齐判定过程中判定为能够与所述捕获的全景图像数据对齐的所述其它捕获图像数据连接到所述捕获的全景图像数据。

15.一种用于使信息处理装置执行以下处理的程序：

对齐判定处理，判定除捕获的全景图像数据之外的其它捕获图像数据是否能够以捕获的被摄体在所述捕获的全景图像数据和所述其它捕获图像数据之间保持一致的方式与所述捕获的全景图像数据对齐；及

图像连接处理，将在所述对齐判定处理中判定为能够与所述捕获的全景图像数据对齐的所述其它捕获图像数据连接到所述捕获的全景图像数据。