CN109214265B

CN109214265B - 图像处理装置、其图像处理方法及存储介质

Info

Publication number: CN109214265B
Application number: CN201810721699.9A
Authority: CN
Inventors: 太田祐矢
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-07-06
Filing date: 2018-07-04
Publication date: 2022-12-13
Anticipated expiration: 2038-07-04
Also published as: KR102316056B1; US20190014301A1; JP6948175B2; EP3425592A1; US11025878B2; CN109214265A; JP2019016161A; KR20190005765A

Abstract

提供了图像处理装置、其图像处理方法及存储介质。该图像处理装置，其执行用于使用由从不同视点对摄像空间摄像的多个摄像单元所拍摄的多个图像来生成虚拟视点图像的图像处理，识别摄像空间内的多个被摄体当中的特定被摄体，并且对摄像空间内的多个被摄体实施用于生成虚拟视点图像的图像处理。图像处理装置使用比在对其他被摄体执行的图像处理中多的摄像单元所拍摄的图像，来对识别的特定被摄体执行图像处理。

Description

图像处理装置、其图像处理方法及存储介质

技术领域

本发明涉及图像处理装置、图像处理方法和存储介质，特别地涉及用于处理来自多个照相机的图像的技术。

背景技术

在三维建模技术中，典型地，基于从布置在摄像空间周围的多个照相机获得的多个照相机图像来生成具有三维形状的被摄体的三维模型数据。一种这样的三维建模技术是称为“体积交叉”或“可视外壳(VisualHull)”(以下，这两者被简称为“可视外壳”)的三维模型生成技术。使用可视外壳，当要为被摄体创建三维模型时，来自各个照相机的图像中的被摄体的剪影(silhouette)从照相机的光学原理点的位置在被摄体方向上虚拟地反投影。结果，形成以光学原理点位置为顶点并且被摄体的剪影为横截面的锥形区域。然后将照相机形成的锥形区域重叠的区域(逻辑积)取为被摄体的三维模型。与从照相机获得的图像计算出的特征量匹配并根据特征量之间的位置关系生成三维模型的方法相比，可视外壳原理上对于凸面不太精确，但处理更快。

无论是使用可视外壳还是特征量匹配，布置在外围的较大数量的照相机都将提高三维模型的精度并增加处理时间。日本特开2003-271928号公报公开了一种构造，其首先通过可视外壳得出三维模型的总体形状，然后通过特征量匹配得出细节来在减少计算量的同时维持精度。这是为了快速生成三维模型。

然而，根据日本特开2003-271928号公报中公开的方法，如果存在多个被摄体，则三维模型的精度将在多个被摄体上均等地改变。这样，日本特开2003-271928号公报中公开的方法不能满足在维持目标被摄体的精度的同时减少整体计算量的需求。

发明内容

根据本发明的一个方面，提供了一种图像处理装置，其使用从不同视点对摄像空间进行摄像的多个摄像单元所拍摄的多个图像来执行用于生成虚拟视点图像的图像处理，所述图像处理装置包括：识别部，其用于识别摄像空间内的多个被摄体当中的特定被摄体；以及处理部，其用于对摄像空间内的多个被摄体实施用于生成虚拟视点图像的图像处理，其中，所述处理部使用比在对其他被摄体执行的图像处理中多的摄像单元所拍摄的图像，来对由识别部识别的特定被摄体执行图像处理。

根据本发明的另一方面，提供了一种图像处理方法，其使用从不同视点对摄像空间进行摄像的多个摄像单元所拍摄的多个图像来执行用于生成虚拟视点图像的图像处理，所述图像处理方法包括：识别步骤，从摄像空间内的多个被摄体当中识别特定被摄体；以及实施步骤，对摄像空间内的多个被摄体实施用于生成虚拟视点图像的图像处理，其中，使用比在对其他被摄体执行的图像处理中多的摄像单元所拍摄的图像，来对识别的特定被摄体实施图像处理。

根据本发明的另一方面，提供了一种存储介质，其存储用于使计算机执行图像处理方法的程序，所述图像处理方法使用从不同视点对摄像空间进行摄像的多个摄像单元所拍摄的多个图像来执行用于生成虚拟视点图像的图像处理，所述图像处理方法包括：识别步骤，摄像空间内的多个被摄体当中识别的特定被摄体；以及实施步骤，对摄像空间内的多个被摄体实施用于生成虚拟视点图像的图像处理，其中，使用比在对其他被摄体执行的图像处理中多的摄像单元所拍摄的图像，来对识别的特定被摄体实施图像处理。

从以下对示例性实施例的描述中(参照附图)，本发明的其他特征将变得清楚。

附图说明

图1是例示图像处理装置的功能构造的示例的框图。

图2是例示三维模型生成处理的流程图。

图3A是例示目标被摄体与正在使用的摄像单元之间的关系的示例的图。

图3B是例示非目标被摄体与正在使用的摄像单元之间的关系的示例的概念图。

图4是例示剪影内/外确定处理的流程图。

图5是例示选择单元的功能构造的示例的框图。

图6是例示摄像单元的选择处理的流程图。

图7是例示保持目标被摄体与被摄体ID之间的关系的表的图。

图8是例示选择单元的功能构造的示例的框图。

图9是例示摄像单元的选择处理的流程图。

图10是例示区域指定操作画面的图。

图11A是例示目标区域内的被摄体与正在使用的摄像单元之间的关系的示例的图。

图11B是例示目标区域外的被摄体与正在使用的摄像单元之间的关系的示例的图。

图12A和图12B是例示目标区域与目标被摄体之间的关系的示例的图。

图13A和图13B是例示目标区域与目标被摄体之间的关系的示例的图。

图14是例示目标区域的重置处理的流程图。

图15A和图15B是例示目标区域与目标被摄体之间的关系的示例的图。

图16是例示摄像单元的选择处理的流程图。

图17是例示图像处理装置的功能构造的示例的框图。

图18是例示图像处理装置的硬件构造的示例的框图。

具体实施方式

第一实施例

将参照图1描述根据第一实施例的图像处理系统的构造。图像处理系统包括多个摄像单元101a-z、多个前景提取单元102a-z和图像处理装置110。计算机设备(例如个人计算机(PC)、工作站(WS)、各种类型的服务器等)可以被用作图像处理装置110，但是该实施例不对设备的类型进行特别的限制。

图18是例示根据该实施例的图像处理装置110的硬件构造的示例的框图。CPU 21是中央处理单元，其通过执行存储在ROM 22或RAM 23中的程序来作为整体控制信息处理装置。CPU 21例如通过将存储在存储设备25中的预定程序加载到RAM 23中并执行加载到RAM23中的程序来实现图1中所示的图像处理装置110的功能单元。ROM 22是只读非易失性存储器。RAM 23是可随机存取存储器。动态随机存取存储器(DRAM)可以用作RAM 23。显示设备24在CPU 21的控制下进行各种显示。

存储设备25例如是由硬盘构成的高容量存储设备。从多个摄像单元、前景图像等获得的图像可以被存储在存储设备25中。输入设备26接受到图像处理装置110的各种用户输入。接口27是用于将图像处理装置110连接到外部设备的接口，并且在该实施例中，多个前景提取单元102被连接。注意，前景提取单元102和图像处理装置110可以通过诸如LAN等的网络被连接。在这种情况下，接口27用作网络接口。总线28以通信方式将上述元件彼此连接。

虽然图像处理装置110的功能单元被描述为通过CPU 21执行预定程序来实现，但是这些单元不限于此。例如，也可以使用用于加速计算的硬件，诸如，图形处理单元(GPU)或现场可编程门阵列(FPGA)。换句话说，图像处理装置110的功能单元可以通过软件和硬件(例如串联操作的专用IC)来实现，并且部分或全部功能可以仅通过硬件来实现。此外，也可以使用通过采用多个图像处理装置110以分散方式执行功能单元的处理的构造。

回到图1，将描述构成根据该实施例的图像处理系统的单元。摄像单元101a-z是拍摄数字图像的设备，并且典型的数字照相机或数字摄像机可以用作摄像单元101a-z。摄像单元101a-z被布置为从不同视点对摄像空间进行摄像，并且以设置的帧速率拍摄运动图像作为数字图像。摄像单元101a-z以相同的帧速率和相同的定时，即以同步方式，拍摄图像。注意，多个摄像单元101a-z的摄像范围可以部分重叠。

前景提取单元102a-z接收由摄像单元101a-z拍摄的图像并从相应的整体图像中提取前景。这里，“前景”是指被识出为被摄体(诸如人或球)的图像区域。用户等可以预先指定要提取什么类型的被摄体作为前景。可以给出使用背景差分信息的方法作为用于提取前景的方法的示例。根据该方法，例如，预先拍摄不存在前景的状态作为背景图像，并且将拍摄图像与背景图像之间的差值大于阈值的区域确定为前景。然而，用于提取前景的方法不限于此方法。可以使用各种方法，例如使用特征量或机器学习的方法，并且在本实施例中可以使用用于提取前景的任何方法。

假定当提取前景时，各个前景提取单元102生成二值剪影图像，其中，作为前景提取的像素具有值“1”，并且不是前景的像素具有值“0”。剪影图像由三维模型生成单元106使用。以下假设，在称为前景的情况下还包括“剪影图像”。

图像处理装置110处理由对相互不同的视野范围进行摄像的多个摄像单元101拍摄的多个图像(在本实施例中，图像处理装置110处理从所述图像提取的前景)。在图像处理装置110中，前景接收单元103从前景提取单元102a-z接收提取的前景，并且从读出单元104输出指定的前景。在该实施例中，前景接收单元103通过网络连接到前景提取单元102a-z。例如，以太网(注册商标)被用于网络连接，但是网络不限于此。前景接收单元103通过网络聚集并存储来自摄像单元101和前景提取单元102的数据(前景)。前景接收单元103与前景提取单元102之间的连接不限于网络连接。例如，连接可以采用作为图像传输接口的串行数字接口(SDI)、数字视频接口(DVI)等。

读出单元104从前景接收单元103读出由选择单元109指定的前景，并将该前景提供给三维模型生成单元106。虽然可以设想在生成三维模型中，使用来自所有摄像单元101的前景，但是在本实施例中，通过选择单元109选择在生成三维模型中要使用的前景。稍后将详细描述选择单元109。

照相机参数设置单元105将摄像单元101a-z的信息设置为照相机参数，并将这些参数传递给三维模型生成单元106。这里，照相机参数包括各个摄像单元101的世界坐标系中的三维位置、照相机的姿态(朝向)、焦距以及主点(照相机图像的中心)。照相机参数被假设为通过如下方式来测量并计算：拍摄用于预先校准照相机位置的校准图案，然后实施基于校准图案和二维照相机坐标定义的三维坐标之间的坐标转换。选择单元109基于处理目标是否是特定的被摄体，选择多个摄像单元101中的、要提供在图像处理(三维模型的生成)中使用的图像(前景)的摄像单元。以下将特定被摄体称为“目标被摄体”。读出单元104从前景接收单元103读出由选择单元109选择的摄像单元101提供的图像(前景)，并将该图像提供给三维模型生成单元106。尽管本实施例主要描述了选择单元109选择摄像单元的示例，但是可以选择图像而不是选择摄像单元。

三维模型生成单元106使用由照相机参数设置单元105提供的照相机参数和由读出单元104提供的前景来生成三维模型。在该实施例中，使用可视外壳作为用于生成三维模型的方法。使用可视外壳，从照相机看到的锥形的共享部分而得到三维模型，并且计算算法可以大致分为体积交叉法(volume intersection method，VIM)和空间雕刻法(spacecarving method，SCM)。该实施例使用SCM。在SCM中，在三维空间中的各个规则多边形被反投影到各个摄像单元101的平面上。被反投影到所有摄像单元101的前景内的多边形被留下作为前景，而其他的多边形被删除。三维空间中的各个多边形通常称为“体素”，在可视外壳中，前景称为“剪影”。为了简单起见，首先将描述仅存在充当前景的一个被摄体(诸如，人)的情况。稍后将分别描述存在多个被摄体的情况。

将参照图2中的流程图来描述根据该实施例的可视外壳处理。首先，根据来自被摄体设置单元108的信息，选择单元109选择提供用于生成单个前景被摄体的三维模型的前景的摄像单元(S101)。稍后将详细描述被摄体设置单元108和选择单元109的处理。接下来，读出单元104从由选择单元109选择的摄像单元101(前景提取单元102)中读出所提供的前景(S102)。

这里将参照图3A和图3B中的概念图来描述提供要使用的前景图像的摄像单元101的选择。图3A和图3B是摄像单元101的布局和前景被摄体(下文中的“被摄体301a-c和302a-g”)的位置的鸟瞰图。来自摄像单元101的线表示摄像单元101的朝向(摄像方向)，并且摄像单元101朝向场中心303。注意，被摄体的数量、位置等不限于在这里例示的数量、位置等。

被摄体设置单元108例如响应于用户操作来从这些前景被摄体中设置目标被摄体。以下描述将假定被摄体301a-c已被设置为目标被摄体。如果要生成三维模型的前景被摄体是目标被摄体(被摄体301a，301b或301c)，则从所有摄像单元101的图像获得的前景被用于三维模型生成处理。图3A例示了要生成三维模型的前景被摄体是目标被摄体的情况。在图3A中，摄像单元101a-t围绕场(摄像空间)布置，并且从由摄像单元101a-t拍摄的图像获得的前景被用于生成摄像空间内的目标被摄体的三维模型。换句话说，选择单元109选择用于生成目标被摄体的三维模型的所有摄像单元101a-t。

同时，图3B例示了要用于生成三维模型的前景被摄体不是目标被摄体，即非目标被摄体(被摄体302a-g中的一个)的情况。在图3B例示的示例中，从由四个摄像单元101a，g，k和q拍摄的图像而获得的前景被用于生成非目标被摄体的三维模型。换句话说，选择单元109选择用于生成摄像空间内的非目标被摄体的三维模型的摄像单元101a，g，k和q。然而，用于生成目标被摄体和非目标被摄体的三维模型的摄像单元的数量和布局不限于这里描述的数量和布局。也就是说，当处理目标未被设置为目标被摄体时由选择单元109选择的摄像单元的数量少于当处理目标被设置为目标被摄体时由选择单元109选择的摄像单元的数量。以这种方式，选择单元109根据要处理的被摄体是目标被摄体还是非目标被摄体来选择用于生成三维模型的摄像单元(前景)。

接下来，使用存储在前景接收单元103中的多个图像(前景)中的、由选择单元109选择的摄像单元提供的图像(前景)对要处理的被摄体执行图像处理。在本实施例中，三维模型生成单元106实施如下图像处理：使用从来自选择单元109选择的摄像单元的图像而获得的前景，针对三维模型生成空间的所有坐标(世界坐标)生成三维模型(S103-S108)。注意，三维模型生成单元106将图像处理装置110的CPU 21用作计算设备，并且将RAM 23用作计算工作空间。

在该示例中，假设三维模型生成空间中的坐标以三维表达为x，y和z，针对预定大小的空间内的所有x，y和z坐标执行循环处理(S103，S108)。在各个循环中，对于所有坐标当中的要处理的坐标实施剪影内/外确定处理(S105)。剪影内/外确定处理根据由选择单元109进行的选择的结果在由读出单元104读出的前景上执行(S104，S106)。因此，将从S104到S106的循环反复进行与由选择单元109选择的摄像单元相同的次数。

接下来将参照图4中的流程图描述在S105中执行的剪影内/外确定处理。首先，三维模型生成单元106将要处理的世界坐标投影并转换为摄像单元101的摄像单元坐标(S501)。在世界坐标中，充当基准的原点被设置在要处理的三维空间中，并且离原点的位置作为三维空间中的对应坐标被处理。本实施例假设要处理的三维空间中的坐标被预先转换为世界坐标。另一方面，“摄像单元坐标”是指由摄像单元101拍摄的图像中的坐标。用于将世界坐标投影/转换成摄像单元坐标的矩阵值是根据照相机参数确定的。

接下来，三维模型生成单元106读出通过投影和转换得出的摄像单元坐标位置处的前景(剪影图像)的值(S502)。三维模型生成单元106确定在S502中读出的值是否是1(S503)。如果读出值是1(S503中为“是”)，则三维模型生成单元106确定摄像单元坐标位于剪影内，并且将针对三维的所有坐标存在的剪影内标志设置为1(S504)。另一方面，如果从前景数据的剪影图像读出的值是0(S503中为“否”)，则三维模型生成单元106确定摄像单元坐标位于剪影外，并且将剪影内标志设置为0(S505)。

存在在投影和转换之后的摄像单元坐标超出拍摄图像中的坐标范围的情况。在该实施例中，这样的摄像单元坐标被视为剪影“外”。然而，构造不限于此，而是可以采用不同的确定逻辑。例如，可以设想，由于坐标处于无法看到的范围内并且无法进行确定而将坐标设置为“其他”(无法确定)，根据之后阶段的确定逻辑将坐标设置为“内”等。因此，对于摄像单元坐标超出图像中的坐标范围的情况，可以想到各种算法。

一旦对于要使用的所有前景完成剪影内/外确定处理，则该处理退出S104至S106的循环。然后，三维模型生成单元106使用剪影内/外确定的结果来实施模型生成处理(S107)。具体而言，三维模型生成单元106针对由选择单元109选择的摄像单元的数量，对作为内/外剪影确定结果的剪影内标志进行综合确定，并且决定是“留下”还是“删除”坐标。

在该实施例中，如果对于正在处理的所有前景，剪影内标志是1，则做出“留下”的确定。如果对于正在处理的前景，甚至仅一个剪影标志内是0，则做出“删除”坐标的确定。该确定算法仅仅是示例，并且可以采用各种算法。例如，用于确定是“留下”还是“删除”的算法还与在如上所述设置剪影内标志时如何处理摄像单元坐标外的投影结果有关。如果在针对正在处理的前景而获得的剪影内标志当中的剪影内标志(其为1)的数量大于或等于给定阈值，则可以做出“留下”的确定。

在S107的处理结束的时刻，对于正在处理的三维空间中的坐标完成了使从摄像单元看到的锥形的共享区域留下的处理，并且因此正在处理的这些坐标是否为三维模型的一部分被最终确定。如此，一旦对三维空间中的所有x，y和z实施了上述处理(S104至S107)，则基于被确定为“留下”的坐标，生成目标前景被摄体的模型。生成的模型以点群格式输出，该点群格式是三维空间中的体素的集合。

三维模型生成单元106将输出的三维模型存储在存储单元107中。存储单元107例如是内置于图像处理装置110中的硬盘驱动器(HDD)。可选地，例如，内置在图像处理装置110中的固态驱动器(SSD)或者HDD和SSD的组合可以用作存储单元107。如果要处理多个前景被摄体，则针对各个被摄体执行上述三维模型生成处理。

如上所述，对于三维空间中的所有坐标，存在与使用的摄像单元的数量相对应的循环数量(S104至S106)，并且因此减少所使用的摄像单元的数量极大地有助于减少计算量。但是，所使用的摄像单元的数量与所生成的三维模型的精度之间存在折衷。因此，尽管均匀地减少所使用的摄像单元的数量将减少计算量，但模型的精度也会均匀地下降，并且因此不能保持期望的精度。因此，在本实施例中，配设被摄体设置单元108和选择单元109，并且通过在逐个前景-被摄体(foregroundobject-by-foreground object)的基础上确定要使用的前景，可以在保持目标被摄体的三维模型的精度的同时减少整体计算量。

接下来将参照图5中的功能框图以及图6中的流程图来描述构造和处理的细节，特别关注被摄体设置单元108和选择单元109。

被摄体设置单元108设置目标被摄体。以下将描述用户从诸如图3A所示的鸟瞰视图画面中选择了被摄体301a-c作为目标被摄体的情况。此时，如图7的表801所示，被摄体设置单元108将作为标识信息的被摄体ID添加到存在于摄像空间中的被摄体301a-c和302a-g，并管理这些被摄体。被摄体设置单元108针对被设置为目标被摄体的被摄体将目标ID设置为1。在图7例示的示例中，分别具有1至3的被摄体ID的被摄体301a-c被设置为表801中的目标被摄体。用户可以通过例如触摸俯瞰图画面的、显示期望被摄体的区域来指定目标被摄体。可选地，可以通过指定在表801中管理的被摄体ID来指定目标被摄体。在这种情况下，被摄体ID在图像上以及在被摄体附近被显示在鸟瞰图画面中，使得用户可以在显示中识出分配给被摄体的被摄体ID。

接下来将参照图5和图6详细描述选择单元109的处理。ID输入单元601从三维模型生成单元106获取当前处理目标的被摄体ID，并将该被摄体ID发送到ID确定单元602。ID确定单元602参照由被摄体设置单元108生成的表801，并且基于从ID输入单元601接收到的被摄体ID的目标ID来确定正在处理的被摄体是否是目标被摄体。决定单元603将基于ID确定单元602的确定结果来决定要使用的摄像单元，并且将读出指令发送到读出单元104。

将参照图6中的流程图进一步描述ID确定单元602和决定单元603的处理。首先，ID确定单元602通过参照表801来确定正在处理的被摄体ID的目标ID是否为1(S701)。如果确定目标ID为1(在S701中为“是”)，则决定单元603决定选择朝向目标被摄体的摄像单元作为提供将被使用的前景的摄像单元(S702)。在该实施例中，如图3A所示，摄像单元101a-t全部被选择。然而，如果确定目标ID不是1(S701中为“否”)，则决定单元603决定选择朝向非目标被摄体的摄像单元作为提供将被使用的前景的摄像单元(S703)。在该实施例中，如图3B所示，摄像单元101a，g，k和q被选择。

作为上述处理的结果，在生成被确定为目标被摄体的被摄体301a，301b和301c的三维模型中，读出由摄像单元101a-t提供的所有前景。在生成未被确定为目标被摄体的被摄体302a-g的三维模型中，读出由摄像单元101a，101g，101k和101q提供的前景。读出的前景被输入到三维模型生成单元106，并被用于生成各被摄体的三维模型。

如果存在多个要处理的被摄体，则如表801(图7)所示，在将被摄体ID分配给这些被摄体之前，需要实施用于识出这些被摄体的处理。为了检测/识出存在于三维空间中的被摄体，需要用于搜索三维空间的某种手段。例如，可以使用可视外壳处理。一种方法是针对具有足够大的大小的多边形对整个三维空间实施处理，以包括被假定为具有处理中使用的体素大小的被摄体。其余的体素被视为独立的被摄体。可选地，也可以想到使用某种特征量检测或机器学习来实施搜索的手段，但是用于搜索的方法在这里不受限制。对得出的各个被摄体执行上述三维模型生成处理。

如上所述，根据第一实施例，与当生成非目标被摄体的三维模型时相比，当生成目标被摄体的三维模型时使用更多数量的前景。结果，可以在维持目标被摄体的三维模型的精度的同时减少整体计算量。

尽管前述实施例将SCM描述为在生成三维模型的处理中用作可视外壳处理算法，但是该实施例也可以在使用VIM时被应用。尽管VIM也参照来自所有摄像单元101的前景，但是可以采用上述选择单元109来确保将有限数量的前景用于非目标被摄体。因此，即使使用VIM技术进行处理，也可以减少整体计算量。

此外，尽管第一实施例描述了针对目标被摄体使用来自所有摄像单元的前景，但并非绝对必须使用所有的前景。可以以如下方式设置适当的量(摄像单元的数量)：将总体计算量与所实施的特定系统所需的三维模型精度进行平衡。这同样适用于用于非目标被摄体的摄像单元的数量。尽管在第一实施例中这是四个单元，但是对于摄像单元的数量没有特别的限制，只要其数量小于用于目标被摄体的摄像单元的数量即可。

第二实施例

在第一实施例中，由用户指定的前景被摄体由被摄体设置单元108设置为目标被摄体，并且切换要使用的摄像单元的组合。在第二实施例中，将存在于被指定为摄像空间的区域中的前景被摄体设置为目标被摄体，并切换要使用的摄像单元的组合。根据第二实施例的图像处理系统的构造和整体处理与第一实施例(图1、图2和图3B)中的相同。根据第二实施例的被摄体设置单元108和选择单元109的构造和处理与第一实施例不同，因此在下文中主要对这些进行描述。

图8是例示根据第二实施例的选择单元109的功能构造的示例的框图。图9是例示根据第二实施例的由选择单元109进行的处理的流程图。图10是例示根据第二实施例的目标区域的设置的图。

目标区域由被摄体设置单元108设置在摄像空间中。在第二实施例中，用户通过诸如图10所示的操作画面1101指定目标区域。具体而言，操作画面1101包括三维地显示指定区域的显示画面1102和区域指定画面1103，该区域指定画面1103是用于指定区域的整个区域的鸟瞰图画面。用户使用作为操作设备的鼠标来操纵区域指定画面1103中的区域指定指针1105，并设置目标区域1104。当使用鼠标指定两个点时，以指定的两个点为角的矩形区域被设置为目标区域1104。预设的固定值被用于高度方向上的指定，使得三维目标区域1106被设置并显示在显示画面1102中。注意，对于用于指定区域的形状的手段没有限制。除了使用两个指定点表现的矩形之外，在区域指定画面1103中指定的区域可以是通过指定所有四个点获得的任何期望的四边形；该区域可以被指定为圆形，或者被指定为自由绘制的曲线。另外，对指定设备没有限制，并且可以使用触摸板、方向键等来代替鼠标。最后，尽管固定值用于高度方向，但该值可以由用户指定。

接下来将详细描述根据第二实施例的选择单元109。通过坐标输入单元901从三维模型生成单元106接收当前正在处理的被摄体的坐标(被摄体坐标)，然后将其发送到区域确定单元902。区域确定单元902将从被摄体设置单元108发送的目标区域的信息与来自坐标输入单元901的被摄体坐标进行比较，并将确定结果发送到决定单元603。“目标区域的信息”是表现如图10所示那样设置的三维目标区域1106的范围的坐标的信息。例如，目标区域的信息表示与目标区域对应的、关于x，y和z三维坐标的范围。对目标区域的信息被保持的格式没有特别的限制。例如，在其最简单的状态下，目标区域中的所有坐标可以被保持为列表。可选地，目标区域可以通过某种数学公式表达。如果指定了简单的矩形，则可以通过为各个x，y和z坐标值定义范围来表现设置区域。决定单元603基于上述比较的结果决定提供读出的前景的摄像单元，并且将读出指令发送到读出单元104。

接下来将参照图9中的流程图描述根据第二实施例的由选择单元109实施的选择摄像单元的处理。首先，区域确定单元902确定正在处理的世界坐标(由坐标输入单元901获得的被摄体坐标)是否在由被摄体设置单元108设置的目标区域内(S1001)。如果正在处理的世界坐标在目标区域内(S1001中为“是”)，则决定单元603选择朝向目标被摄体的摄像单元101作为提供要使用的前景的摄像单元(S1002)。然而，如果正在处理的世界坐标不在目标区域内(S1001中为“否”)，则决定单元603选择朝向非目标被摄体的摄像单元101作为提供要使用的前景的摄像单元(S1003)。例如，如图11A所示，被确定为处于目标区域内的被摄体301a，301b和301c被确定为目标被摄体。所有摄像单元101a-t被选择为提供要用于生成这些被摄体的三维模型的前景的摄像单元。同时，如图11B所示，存在于目标区域1104外的被摄体302a-g被确定为非目标被摄体。摄像单元101a，101g，101k和101q被选择为提供要用于生成这些被摄体的三维模型的前景的摄像单元。

如上所述，根据第二实施例，可以处理存在于由用户指定的特定区域中的被摄体(诸如足球球门前面的区域)作为目标而不是将个别被摄体作为目标的情形。将一个区域内的被摄体指定为目标被摄体还使得能够处理这样的情形，例如，离开球门前方区域的球员的重要程度降低并且进入球门前方区域的球员的重要程度增加。

注意，作为用于确定被摄体是否在目标区域内的标准，可以设想各种标准。例如：

-当整个被摄体位于目标区域内时，该被摄体被确定为位于目标区域内，

-当被摄体至少部分位于目标区域内时，确定该被摄体位于目标区域内，或者

-当被摄体的中心(重心)位于目标区域内时，确定该被摄体位于目标区域内。

当甚至仅一部分被摄体位于目标区域内时，通过将被摄体视为目标被摄体，可以防止仅由具有高分辨率的被摄体的一部分引起的图像质量的下降。

第三实施例

在第二实施例中，设置的目标区域是固定的。第三实施例将描述响应于目标被摄体移动而移动和/或变换目标区域的构造。第三实施例从第二实施例中描述的处理改变被摄体设置单元108的处理，因此以下将主要描述与第二实施例不同的构造。

首先，将描述通过跟随目标区域内的被摄体的移动来改变(移动)指定的目标区域的位置的构造。图12A和图12B是例示根据第三实施例的用于设置目标区域的方法的图。在图12A中，假定用户设置了目标区域1401。设置目标区域的方法与第二实施例中的相同。被摄体1402存在于目标区域1401中。图12B例示从图12A所示的状态经过设置时间量之后的状态，并且在图12B中，被摄体1402已经移动到被摄体1502的位置。结果，跟随被摄体1402的移动，目标区域1401也被重置为目标区域1501。

图13A和图13B是例示根据第三实施例的用于设置目标区域的方法的另一示例的图。在图13A和图13B中，指定目标区域的大小或形状通过跟随目标区域内的被摄体的移动而改变。在图13A中，假定用户设置了目标区域1601。在目标区域1601中存在作为人的被摄体1602和作为球的被摄体1603。图13B例示从图13A所示的状态经过设置时间量之后的状态，虽然被摄体1602没有移动，但是被摄体1603移动到了被摄体1702的位置。虽然目标区域1601不能按原样覆盖被摄体1602和被摄体1702的区域，但是目标区域被重置为包含这些被摄体的目标区域1701。

接下来将参照图14中的流程图描述在上述两种情况下重置目标区域的处理。首先，被摄体设置单元108根据手动用户操作在摄像空间中设置目标区域(S1801)。一旦目标区域被设置，被摄体设置单元108检测目标区域内的被摄体(S1802)。尽管对用于检测被摄体的手段没有特别的限制，但为了跟踪被摄体的移动，需要将被摄体与其它被摄体进行区分。因此，通过提取特征量来识出和区分被摄体。可以给出尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)等作为用于提取特征量的这种算法的示例。

从特征量提取获得被摄体的数量以及识别各被摄体的特征量和位置信息。被摄体具有大小，因此假定被摄体的位置信息被保持为使得被摄体中心的坐标也被保持。注意，可以通过坐标范围来管理被摄体的位置信息，例如作为被摄体的多边形区域的外部轮廓的边界框、从坐标的中心延伸设置范围的球等。

每当经过了用户预先确定的设置时间量时，被摄体设置单元108确定被摄体是否在目标区域内移动(S1803)。例如，被摄体设置单元108每次检测被摄体，并且通过将获得的被摄体位置信息与前一次获得的位置信息进行比较来获得移动量。如果所获得的移动量超过预定阈值，则被摄体设置单元108确定被摄体移动。

如果确定被摄体移动(S1803中为“是”)，则以包含移动之前目标区域内的被摄体所移动到的位置的方式重置目标区域(S1804)。例如，如图12A和图12B所示，当跟随存在于目标区域中的单个被摄体时，以相对于被摄体的位置(例如，重心)维持目标区域的位置的方式移动目标区域。目标区域的大小在这种情况下不会改变。当跟随存在于如图13A和图13B所示的目标区域中的多个被摄体时，以既包含初始设置的目标区域又包含正在被跟随的多个被摄体的方式变换目标区域。

当确定目标区域内的被摄体是否移动(S1803)时，忽略新进入目标区域的被摄体。换句话说，当在S1801中设置目标区域时，在S1802中检测到的被摄体被视为其移动将被跟随的目标被摄体，并且新进入S1803及以后的循环中的目标区域的被摄体不经受跟随处理。这是因为在被摄体移动之前该被摄体没有被参照。此外，由于目标区域被重置(S1804)而在目标区域内新存在的被摄体不被用作S1803中用于确定移动的目标被摄体，即，不被用作其移动将被跟随的被摄体。然而，在生成三维模型中，存在于目标区域中的被摄体被视为用于预移动目标区域和后移动目标区域二者的目标被摄体。因此，检测移动(S1803)，并且根据被摄体随着时间的移动而重置目标区域(S1804)。重置目标区域的处理在用户发出结束重置处理的指令时结束(S1805)。

注意，如第三实施例中所描述的，使得用户能够选择是否以跟随目标区域内的被摄体的方式移动/变换所设置的目标区域，或者如在第二实施例中所描述的那样固定目标区域。用户也可以在比赛中途等，通过被摄体设置单元108手动改变目标区域。

根据如上所述的第三实施例，即使存在于已被指定的目标区域中的被摄体移动，也可以自动跟随目标区域内的被摄体，而用户不必重置目标区域。

第四实施例

在第一到第三实施例中，根据三维模型生成处理的对象是否是目标被摄体来改变正在使用的摄像单元(前景)的组合。在第四实施例中，基于目标区域内的目标被摄体与目标区域内的预定位置之间的距离来改变从多个摄像单元中选择的摄像单元的组合。根据第四实施例的构造与根据图1所示的第一实施例的构造相同。然而，选择单元109的一些处理是不同的，并且将参照图15A、图15B和图16进行描述。然而，选择单元109的构造与第二实施例(图8)中的构造相同。以下将描述目标区域的中心被用作目标区域内的预定位置的示例。

在图15A中，如1901所示设置目标区域。将存在于目标区域1901内的被摄体设置为目标被摄体。这里，被摄体1903位于目标区域1901的中心1902附近，并且使用来自所有摄像单元101a-t的前景来生成被摄体1903的三维模型。如图15B所示，被摄体2001也位于目标区域1901内。这里，被摄体2001存在于距目标区域的中心1902远的位置，因此，使用来自摄像单元101中的十个摄像单元(即，摄像单元101a，c，e，g，i，k，m，o，q和s)的前景，生成被摄体2001的三维模型。

接下来将参照图16中的流程图描述选择单元109的处理。

如果选择单元109的区域确定单元902确定正在处理的目标被摄体在目标区域内(S1001中为“是”)，则计算该目标被摄体与目标区域的中心之间的距离(S2001)。被摄体的中心用作计算距离时使用的被摄体的位置。由于被摄体具有如前所述的给定大小，因此存在表达被摄体位置的各种方式，因此位置不限于中心。

决定单元603根据在S2001中计算的目标区域的中心与正在处理的被摄体之间的距离来选择提供用于生成三维模型的前景的摄像单元(S2002)。决定单元603使得被选择的摄像单元的数量随着目标区域内的预定位置与正在处理的被摄体之间的距离(在S2001中计算的距离)增加而减少。该实施例假定距离与要选择哪些摄像单元之间的关系被预先保持为表。如果计算的距离由x表示并且阈值由α表示，则该表例如如下。

·x<α：使用所有摄像单元101

·x≥α：使用摄像单元101a，c，e，g，i，k，m，o，q和s

如果正在处理的被摄体不在目标区域内(S1001中为“否”)，则决定单元603选择朝向非目标被摄体的摄像单元101作为提供要使用的前景的摄像单元(S1003)。该处理与第二实施例中的处理相同(图9中的S1001和S1003)。尽管在该实施例中使用目标区域的中心与被摄体之间的距离，但是该构造不限于此。例如，可以使用目标区域内的、用户设置的任意点与被摄体之间的距离，或者可以使用给定预定被摄体(例如，球门或球)的中心与正在处理的被摄体之间的距离。

此外，尽管在图15B中选择整个布局中的每个其他摄像单元101，但是选择方法不限于此方法。例如，可以替代地选择整个布局中的每个第三摄像单元101。当多个摄像单元以相等的间隔布置在摄像空间周围时，如果选择设置间隔处的摄像单元，则三维模型的精度下降将不再取决于视野。另外，在该实施例中，目标区域向视野的左半部分偏移。因此，可以对更接近目标区域的摄像单元给予优先权，使得图15A中的摄像单元101a-d和101n-t被使用。然而，当生成三维模型时，由各摄像单元101覆盖的视角是重要的。如果存在无法清晰摄像的范围，即无法看到的范围，则原则上不可能为该范围正确地生成三维模型。因此，假设所生成的模型的精度以及进一步精度被认为重要的朝向，由用户选择并决定，并且被预先设置为上述表。

根据如上所述的第四实施例，即使对于存在于目标区域中的被摄体，通过分段设置三维模型的精度的优先级，也可以进一步减少整体计算量。用于设置被摄体的优先级的方法不限于目标区域内的被摄体的位置，并且可以采用各种方法。例如，用户可以预先为各个被摄体设置优先级，或者用户可以指定高优先级、中优先级和低优先级的区域。可选地，可以为同一区域内的特定被摄体(例如特定团队中的球员)分配更高的优先级。此外，如果摄像的对象是球类比赛，则可以根据被摄体距球的距离自动设置被摄体的优先级。以这种方式，可以使用各种方法来设置被摄体的优先级。

第五实施例

第一至第四实施例描述了用于生成要处理的三维模型的处理的示例，作为使用多个图像(前景)的图像处理。第五实施例将描述从要处理的任意视点渲染图像的处理被用作图像处理的情况。图17例示了根据第五实施例的图像处理装置的构造。除了渲染单元2201和图像输出单元2202之外，该构造与第一实施例中的构造相同。另外，存储单元107直接连接到前景接收单元103，并且来自所有摄像单元101的所有图像被存储在存储单元107中。存储单元107是读出单元104根据来自选择单元109的指令所读出前景的目标。

渲染单元2201实施与第一和其他实施例的三维模型生成处理不同的处理。也就是说，渲染单元2201将颜色添加到所生成的三维模型，并且将投影状态从用户期望的视点输出到二维坐标上作为渲染结果。有关于用户期望视点的信息被输入为，作为来自虚拟摄像单元的视点的虚拟视点，并且以与照相机参数相同的格式输入。假定前景被摄体的三维模型被存储在存储单元107中，由读出单元104读出并被提供给渲染单元2201。用于生成三维模型的构造可以被配设在前景接收单元103、图像处理装置110或不同于这些单元的设备中。三维模型可以通过第一至第四实施例中描述的方法而生成。

输出的渲染结果被发送到图像输出单元2202，并且图像输出单元2202将渲染结果转换为图像格式并输出所得到的图像。这里假定输出图像格式是DVI，但不限于此。SDI、通过网络流式传输运动图像文件等可以作为DVI以外的格式的示例。

渲染单元2201从虚拟视点设置单元2203接收用户期望的视点，并且从虚拟视点确定视野内的被摄体。类似于第一实施例，这些被摄体的被摄体ID是从渲染单元2201传递给选择单元109的信息。

被摄体设置单元108和选择单元109的处理与第一实施例中的处理类似。即，选择在渲染处理中使用的摄像单元(前景)。摄像单元(前景)的数量也是影响渲染过程中的处理负载的参数。例如，在一些渲染处理中，如果要添加从给定视点看到的颜色，则参照从各摄像单元101看到的颜色，并且在对靠近渲染目标的摄像单元101的颜色进行加权的同时实施混合处理。因此在渲染处理中也存在用于参照来自多个摄像单元的前景数据的处理。这样，诸如图17中所示的构造使得能够在仅维持充当目标被摄体的渲染目标的精度的同时，减少整体计算量。

在第二、第三和第四实施例中描述的用于选择摄像单元的方法也可以应用于图17所示的构造中，因此，在渲染处理中也可以实现与第二、第三和第四实施例相同的效果。尽管前面描述了使用三维模型的渲染(称为“基于模型的渲染”)中的应用的示例，但是该应用不限于此。例如，本发明也可以应用于基于图像的渲染，其不使用三维模型。

根据上述第一至第四实施例，使得针对特定被摄体以外的被摄体生成的三维模型的精度低于针对特定被摄体生成的三维模型的精度。根据第五实施例，用于渲染除特定被摄体之外的被摄体的摄像单元的数量少于用于渲染特定被摄体的摄像单元的数量。因此，可以在抑制处理特定被摄体的精度下降的同时减少整体计算量。上述实施例描述了用户单独指定目标被摄体的方法、用户指定了目标区域的方法等，作为设置目标被摄体的方法的示例。然而，该方法不限于这些示例。例如，当拍摄球类比赛时，可以自动识出更接近球的球员作为目标被摄体，或者可以自动识出具有每单位时间的高移动量的球员作为目标被摄体。此外，人群拥挤在一起的区域中的被摄体可被自动识出为目标被摄体。用户也可以根据需要选择多种方法中的一种。

根据前述实施例，在使用来自多个摄像单元的图像的图像处理中，可以在抑制处理多个被摄体中的特定被摄体的精度下降的同时减少整体计算量。

其他实施例

还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能，和/或包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能，并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)、微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)^TM)、闪存装置以及存储卡等中的一个或更多个。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

虽然已经参照示例性实施例对本发明进行了描述，但是应该理解，本发明不限于所公开的示例性实施例。应当对权利要求的范围给予最宽的解释，以使其涵盖所有这些变型例以及等同的结构及功能。

Claims

1.一种图像处理装置，其使用从不同视点对摄像空间进行摄像的多个摄像单元所拍摄的多个图像来执行用于生成虚拟视点图像的图像处理，所述图像处理装置包括：

识别部，其用于识别摄像空间内的目标区域，并将存在于所述目标区域内的被摄体识别为特定被摄体；以及

处理部，其用于对摄像空间内的多个被摄体实施用于生成虚拟视点图像的图像处理，

其中，所述处理部使用比在对摄像空间中的除特定被摄体以外的被摄体执行的图像处理中多的摄像单元所拍摄的图像，来对由识别部识别的特定被摄体执行图像处理；

其中，在所述目标区域内存在一个特定被摄体且该特定被摄体移动的情况下，以随着该特定被摄体的位置的移动而移动目标区域的位置的方式重置目标区域，以及，在所述目标区域内存在多个特定被摄体且至少一个特定被摄体移动的情况下，以既包含移动前的目标区域内的特定被摄体又包含移动了的特定被摄体的方式重置目标区域。

2.根据权利要求1所述的图像处理装置，

其中，由处理部执行的图像处理是用于生成被摄体的三维模型的处理。

3.根据权利要求1所述的图像处理装置，

其中，由处理部执行的图像处理是用于从任意视点渲染被摄体的图像的处理。

4.根据权利要求1所述的图像处理装置，所述图像处理装置还包括：

选择部，其用于选择提供在对特定被摄体的图像处理中使用的图像的摄像单元，和提供在对其他被摄体的图像处理中使用的图像的摄像单元，使得使用比在对其他被摄体的图像处理中多的摄像单元所拍摄的图像，来对特定被摄体执行图像处理。

5.根据权利要求1所述的图像处理装置，所述图像处理装置还包括：

管理部，其用于基于标识符管理存在于由所述多个摄像单元摄像的摄像空间内的被摄体；以及

接收部，其用于接收来自用户的对标识符的指定，

其中，识别部识别由管理部管理的多个标识符当中的、与接收部接收的指定对应的标识符相对应的被摄体作为特定被摄体。

6.根据权利要求1所述的图像处理装置，所述图像处理装置还包括：

接收部，其用于从用户接收对摄像空间中的被摄体的指定，

其中，识别部识别与由接收部接收的指定对应的被摄体作为特定被摄体。

7.根据权利要求1所述的图像处理装置，所述图像处理装置还包括：

接收部，其用于从用户接收对摄像空间中的区域的指定，

其中，识别部识别在与由接收部接收的指定相对应的区域中存在的被摄体作为特定被摄体。

8.根据权利要求1所述的图像处理装置，

其中，识别部以跟随所述目标区域内的被摄体的移动的方式改变所述目标区域的位置、大小和形状中的至少一者。

9.根据权利要求1所述的图像处理装置，

其中，处理部基于所述目标区域内的特定被摄体与所述目标区域内的预定位置之间的距离来设置要从所述多个摄像单元中选择的摄像单元的组合。

10.根据权利要求9所述的图像处理装置，

其中，所选择的摄像单元的数量随着距离增大而减少。

11.根据权利要求1所述的图像处理装置，

其中，处理部优先选择所述多个摄像单元当中的、更接近所述目标区域的摄像单元。

12.一种图像处理方法，其使用从不同视点对摄像空间进行摄像的多个摄像单元所拍摄的多个图像来执行用于生成虚拟视点图像的图像处理，所述图像处理方法包括：

识别步骤，识别摄像空间内的目标区域，并将存在于所述目标区域内的被摄体识别为特定被摄体；以及

实施步骤，对摄像空间内的多个被摄体实施用于生成虚拟视点图像的图像处理，

其中，使用比在对摄像空间中的除特定被摄体以外的被摄体执行的图像处理中多的摄像单元所拍摄的图像，来对识别的特定被摄体实施图像处理；

13.一种存储介质，其存储用于使计算机执行图像处理方法的程序，所述图像处理方法使用从不同视点对摄像空间进行摄像的多个摄像单元所拍摄的多个图像来执行用于生成虚拟视点图像的图像处理，所述图像处理方法包括：