CN110574075B

CN110574075B - 用于生成虚拟视点图像的设备、系统、方法和存储介质

Info

Publication number: CN110574075B
Application number: CN201880028676.8A
Authority: CN
Inventors: 梅村直树
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-14
Filing date: 2018-12-13
Publication date: 2020-11-10
Anticipated expiration: 2038-12-13
Also published as: JP6513169B1; KR20190128735A; CN112489182A; EP3605471A4; US20200349756A1; US11443478B2; KR102153985B1; US20220375158A1; KR102280587B1; CN110574075A; WO2019117264A1; JP2019106144A; US20200066028A1; US11798224B2; US10755471B2; KR20200064176A; EP3605471A1

Abstract

为了使得可以在抑制多视点图像数据的传输时的网络负荷的同时、获得将摄像场景内存在的构造物等三维地表现成与现实构造物相同的自然的虚拟视点图像。根据本发明的生成装置基于与对象相对应的三维形状数据、与构造物相对应的三维形状数据、与至少不同于对象和构造物的背景相对应的背景数据、以及表示虚拟视点的信息，来生成虚拟视点图像。

Description

用于生成虚拟视点图像的设备、系统、方法和存储介质

技术领域

本发明涉及用于基于从多个视点位置拍摄到的多视点图像来生成来自虚拟视点的图像的技术。

背景技术

近年来，虚拟视点图像技术越来越受到关注，该虚拟视点图像技术通过使用多个真实照相机所拍摄到的图像来再现来自虚拟地布置在三维空间内的实际上不存在的照相机(虚拟照相机)的图像。根据虚拟视点图像技术，例如，使得可以从各种角度观看诸如足球或篮球等的比赛中的精彩场景，因此可以给予用户更强烈的临场感。

为了生成虚拟视点图像，可能需要多个真实照相机所拍摄到的图像数据向图像处理服务器等的汇集、以及该服务器等中的三维模型(对象的形状数据)的生成和绘制处理。

作为用于估计对象的三维形状的方法，已知有被称为“视体交叉法 (VisualHull)”的方法(PTL1)。

现有技术文献

专利文献

专利文献1：日本特开2014-10805

发明内容

发明要解决的问题

利用用以估计三维形状的传统技术，例如，担心针对摄像范围中存在的诸如足球球门等的作为静止物体的构造物不能生成三维模型。原因是作为三维形状的估计目标的对象是作为摄像范围内的移动物体的诸如人物等的前景部分。也就是说，将诸如足球球门等的处于静止状态的构造物作为背景进行处理，因此该构造物不是三维模型的生成目标。在未生成构造物的三维模型的状态下生成虚拟视点图像的情况下，在人物等的后方二维地表现没有正在移动的构造物等，使得构造物等被表现成仿佛粘贴在地面等上一样，这样得到远远不是实际摄像场景的视频图像表现。在图1中示出其示例。图1是足球的一个场景的虚拟视点图像，并且该图像是这样的：足球球门(包括球门柱、球门横木和球门网的所有要素)粘贴到草坪场地上。此外，图13B是相扑的一个场景的虚拟视点图像，并且该图像是这样的：被推出相扑台并从相扑台摔下的相扑力士躺在相扑台上。

本发明是有鉴于上述问题而作出的，并且其目的是使得可以获得将甚至作为静止物体的构造物等也三维地表现成变得接近于实际构造物的自然的虚拟视点图像。

用于解决问题的方案

根据本发明的一种系统，包括：第一生成单元，其被配置为基于通过从多个方向的摄像而获得的多个拍摄图像，来生成将构造物的区域和对象的区域表现为与其它区域有所区别的第一图像；第二生成单元，其被配置为基于通过从多个方向的摄像而获得的多个拍摄图像，来生成将所述对象的区域表现为与其它区域有所区别的第二图像；发送单元，其被配置为发送所述第一生成单元所生成的所述第一图像、以及所述第二图像；第一获取单元，其被配置为基于从所述发送单元发送来的所述第一图像和所述第二图像这两者，来获取与所述对象相对应的三维形状数据；第二获取单元，其被配置为基于从所述发送单元发送来的所述第一图像，来获取与所述构造物相对应的三维形状数据；第三获取单元，其被配置为获取与至少不同于所述对象和所述构造物的背景的区域相对应的背景数据；第四获取单元，其被配置为获取表示虚拟视点的信息；以及第三生成单元，其被配置为基于所述第一获取单元所获取到的与所述对象相对应的三维形状数据、所述第二获取单元所获取到的与所述构造物相对应的三维形状数据、所述第三获取单元所获取到的所述背景数据、以及所述第四获取单元所获取到的表示所述虚拟视点的信息，来生成虚拟视点图像，其中，所述发送单元以比所述第二图像的频率低的频率发送所述第一图像。

发明的效果

根据本发明，可以获得三维地表现甚至作为静止物体的构造物等、使得该构造物等变得接近于实际构造物的自然的虚拟视点图像。

通过参考附图给出的对以下实施例的说明，本发明的其它特征将变得更清楚。

附图说明

图1是说明传统方法的问题的图；

图2是示出根据第一实施例的照相机系统的配置的示例的图；

图3是示出虚拟视点图像生成系统的硬件结构的示例的图；

图4是说明多个照相机的共同摄像区域的图；

图5是体数据的说明图；

图6是示出根据第一实施例的构造物模型的生成处理的序列图；

图7A是示出在不存在足球球门的状态下的场地的拍摄图像的图；

图7B是示出在存在足球球门的状态下的场地的拍摄图像的图；

图8是在体数据上示出足球球门的三维模型的图；

图9是示出根据第一实施例的虚拟视点图像的生成处理的序列图；

图10A是示出拍摄图像的示例的图；

图10B是示出前景图像的示例的图；

图10C是示出虚拟视点图像的示例的图；

图11是在体数据上示出选手的三维模型的图；

图12是示出根据第一实施例的变形例的照相机系统的配置的示例的图；

图13A是说明传统方法的问题的图；

图13B是说明传统方法的问题的图；

图14是示出在从正上方观看相扑台的情况下的鸟瞰图上、将相扑台的周围划分成四个区域的图；

图15是示出根据第二实施例的用于对摄像场景内的构造物部分的图像数据进行间隔剔除并传输的处理的流程的流程图；以及

图16是示出根据第二实施例的虚拟视点图像的生成处理的流程的流程图。

具体实施方式

以下参考附图来说明用于体现本发明的方面。各实施例中所示的结构仅仅是示例性的，并且本发明不限于示意性示出的结构。

[第一实施例]

近年来，由于照相机的图像质量的提高，拍摄图像的分辨率增加，并且存在拍摄图像的数据量增加的趋势。在将多个照相机所拍摄到的多视点图像数据经由网络发送至服务器等时、原样发送该多视点图像数据的情况下，施加于网络的负荷很大。此外，接收到了多视点图像数据的服务器等中的三维模型生成和绘制处理时的计算量也增加。结果，在本实施例中，说明如下的方面：在抑制多视点图像数据的传输时的网络负荷的同时，获得将摄像场景内存在的构造物等三维地表现成变得接近于实际构造物的自然的虚拟视点图像。具体地，说明如下的方面：将摄像场景内的持续静止状态或接近静止状态的状态的构造物分离为既不是前景也不是背景的独特属性的对象，并且预先生成该构造物的三维模型。以下将通过采用如下情况作为示例来给出说明：将足球比赛作为摄像场景，并且预先生成作为构造物的足球球门的三维模型。

虚拟视点图像是通过最终用户和/或指定操作员等自由地操作虚拟照相机的位置和姿势所生成的、并且还被称为自由视点图像和任意视点图像等的视频图像。此外，所生成的虚拟视点图像或作为虚拟视点图像的源的多视点图像可以是运动图像或静止图像。在以下所述的各实施例中，主要说明所输入的多视点图像和所输出的虚拟视点图像这两者都是运动图像的情况的示例。本实施例中的构造物仅需是在从相同角度按时间序列进行摄像的情况下位置不会改变的静态对象(静止物体)。例如，在将室内演播室作为摄像场景的情况下，可以将家具或道具作为本实施例中的构造物进行处理。

图2是在从正上方观看场地200的情况下的鸟瞰图中示出构成虚拟视点图像生成系统的总共十个照相机系统110a～110j的配置的图。照相机系统 110a～110j各自以围绕场地200的方式布置在从地面起的预定高度处，并且通过从各种角度拍摄球门其中之一的前方的部分来获取视点彼此不同的多视点图像数据。在草坪场地200上，(实际上，用白线)画出足球场201，并且在该足球场201的左侧和右侧都放置足球球门。此外，左侧的足球球门202的前方的×标记203表示照相机系统110a～110j的共同视线方向(注视点)，并且虚线圆204表示照相机系统110a～110j各自可以以注视点203作为中心拍摄的区域。在本实施例中，假定在将场地200的角部其中之一作为原点、将长边方向作为x轴、将短边方向作为y轴、并且将高度方向作为z轴的坐标系中表示位置。

图3是示出虚拟视点图像生成系统的硬件结构的示例的图。图3中的虚拟视点图像生成系统包括照相机系统110a～110j、交换集线器120、控制装置130、服务器140和数据库150。

在照相机系统110a～110j各自内，包括：摄像单元111a～111j，其各自包括镜头和摄像传感器等；以及照相机适配器112a～112j，其各自根据控制装置 130的指示来进行摄像单元的控制和预定的图像处理。照相机适配器包括控制和图像处理所需的计算处理装置(CPU或ASIC)以及存储器(RAM和ROM)。此外，照相机系统110a～110j通过菊花链方法连接，其中在该菊花链方法中，相邻的照相机系统通过网络线缆160a～160i各自连接。经由网络线缆 160a～160i传输照相机系统110a～110j所拍摄到的图像数据。交换集线器(以下描述为“HUB”)120进行网络上的数据传输的路由。HUB 120和照相机系统 110a通过网络线缆170a连接，并且HUB 120和照相机系统110j通过网络线缆 170b连接。服务器140通过修改从照相机系统110a～110j发送来的多视点图像数据来生成虚拟视点图像数据。此外，服务器140还通过生成时刻同步信号来负责整个系统的同步控制。数据库(以下描述为“DB”)150累积从服务器140 发送来的图像数据，并且根据需要将所累积的图像数据提供至服务器150。HUB 120和服务器140通过网络线缆170c连接，服务器140和DB 150通过网络线缆170d连接，并且HUB 120和控制装置130通过网络线缆170e连接。控制装置130集中控制照相机系统110a～110j各自以及服务器140。然后，控制装置 130将服务器140基于多视点图像所生成的虚拟视点图像输出至例如未示意性示出的显示装置和网络上的其它信息处理设备。在图3所示的系统结构中，多个照相机系统通过菊花链方法连接，但可以采用HUB 120和照相机系统 110a～110j各自直接彼此连接的星形连接。此外，构成虚拟视点图像生成系统的照相机系统的数量不限于十个。

这里，说明本实施例中的多视点图像数据的获取。首先，服务器140将时刻同步信号发送至各照相机系统(时间服务器功能)。在照相机系统 110a～110j各自中，摄像单元111a～111j各自在内部的照相机适配器112a～112j 的控制下根据所接收到的时刻同步信号进行摄像。由于此，使得可以通过以帧为单位同步的运动图像来获取多视点图像。具体地，如以下所述，将各照相机系统所拍摄到的图像数据顺次发送至服务器140。首先，在照相机系统 110a中，在照相机适配器112a对摄像单元11a所拍摄到的图像数据进行后面要说明的图像处理之后，将该图像数据经由网络线缆160a发送至照相机系统 110b。照相机系统110b进行相同的处理，并且将该拍摄图像数据连同从照相机系统110a获取到的拍摄图像数据一起发送至照相机系统110c。在各照相机系统中进行相同的处理，并且十个照相机系统110a～110j各自所获取到的与总共十个视点相对应的拍摄图像数据经由网络线缆170b被发送至USB 120，并且最终被发送至服务器140。服务器140通过使用所接收到的与十个视点相对应的拍摄图像数据，来进行后面要说明的构造物模型的生成、对象的形状估计和诸如绘制等的图像处理。

图4是基于前面所述的图2而示意性示出上述十个照相机系统中的四个照相机系统110a～110d各自所拥有的摄像单元111a～111d各自的摄像区域的图。从照相机系统110a～110d各自延伸出的三角形区域411～414各自是由视体 (visual volume)表示的、与照相机系统110a～110d各自相对应的摄像区域。然后，上述四个三角形摄像区域411～414重叠的多边形区域415表示照相机系统 110a～110d的共同摄像区域。这里，通过采用四个照相机系统的情况作为示例来说明共同摄像区域，但可以通过相同的方法导出总共十个照相机系统中的共同摄像区域。当然，总共十个照相机系统中的共同摄像区域小于上述的多边形区域415。如上所述，可以通过计算各照相机所拥有的视体的重叠区域来获得拍摄共同注视点的照相机组的共同摄像区域。此外，还可以同样根据各照相机系统所获取到的多视点图像的重叠区域导出共同摄像区域中存在的对象的三维模型。

接着，说明作为本实施例的特征其中之一的、用于生成如上所述所获得的共同摄像区域内存在的构造物的三维模型的方法。这里，通过采用生成足球球门202的三维模型的情况作为示例来给出说明。首先，准备用具有预定大小的立方体(体素)填充场地200上的三维空间的体数据(参见图5)。构成体数据的体素的值分别由0和1表示，并且分别为“1”表示有助于形状形成的区域且“0”表示无助于形状形成的区域。在图5中，符号501表示体素(为了便于说明，该体素被画成大于实际体素)。接着，通过使用照相机系统110a～110j 各自中所包括的摄像单元111a～111j的照相机参数，将体素的三维坐标从世界坐标系转换到照相机坐标系。然后，在照相机坐标系中存在构造物的情况下，生成通过体素表示构造物的三维形状的模型(构造物模型)。照相机参数是指与摄像单元111a～111j各自的安装位置和朝向(视线方向)、以及镜头的焦距等有关的信息。

图6是示出摄像场景内存在的构造物的模型的生成处理的序列图。在例如在体育馆的设置时等、作为虚拟视点图像的源数据的多视点图像的主要部分的摄像开始之前(例如，在比赛开始之前)，预先进行通过该序列图示出的一系列处理。在图6中，将十个照相机系统110a～110j的集合描述为“照相机系统组”。

在步骤601中，摄像单元111a～111j各自拍摄在不存在构造物(这里为尚未安装足球球门202)的状态下的目标三维空间(这里是场地200)。图7A示出照相机系统110i的摄像单元111i拍摄在不存在足球球门202的状态下的场地200所获得的图像。在各照相机系统中获取到视点彼此不同的诸如该图像等的拍摄图像。

接着，在步骤602中，摄像单元111a～111j各自拍摄在存在构造物(这里为安装了足球球门202)的状态下的目标三维空间(场地200)。图7B示出照相机系统110i的摄像单元111i拍摄在存在足球球门202的状态下的场地200所获得的图像。与步骤601的情况相同，在各照相机系统中获取到视点彼此不同的诸如该图像等的拍摄图像。假定将在步骤601和602中获取到的拍摄图像数据存储在照相机适配器112a～112j各自内的存储器中。

在步骤603中，照相机适配器112a～112j根据步骤601中所获得的拍摄图像和步骤602中所获得的拍摄图像之间的差，将图像区域分离成拍摄构造物的图像区域和拍摄除构造物以外的背景的图像区域。由于此，获得与构造物(这里为足球球门202)相对应的图像数据和与除构造物以外的背景(这里为场地 200)相对应的图像数据。

在步骤604中，照相机适配器112a～112j各自将步骤603中所获得的与构造物相对应的图像数据和与背景相对应的图像数据这两者发送至服务器140。

在步骤605中，服务器140基于从各照相机系统接收到的构造物的图像数据和各照相机系统的照相机参数，来生成由前面描述的体素构成的构造物 (这里，足球球门202)的三维模型。图8是在前面描述的体数据上示出足球球门202的三维模型的图。还可以代替体素本身而是由各自表示体素的中心的点的集合(点云)来表示三维形状。将如此生成的构造物模型存储在服务器140 内的存储器或DB 150中。此外，还一起存储了连同构造物图像数据一起接收到的背景图像数据。

以上是生成摄像场景内的构造物模型时的处理的流程。也可以通过相同的方法来生成例如角旗等的其它构造物的三维模型。在本实施例中，在照相机适配器侧进行构造物和除构造物以外的背景的分离，但也可以在服务器 140侧进行该分离。

接着，说明通过使用如上所述所获得的构造物模型来生成无不协调感地表现摄像场景内存在的构造物的虚拟视点图像。图9是示出根据本实施例的虚拟视点图像的生成处理的序列图。与图6的序列图的情况相同，将十个照相机系统110a～110j的集合描述为“照相机系统组”。

根据足球比赛的开始等，在步骤901中，控制装置130将用以拍摄作为虚拟视点图像的源的多视点图像的指示(摄像开始命令)发送至服务器140。在接下来的步骤902中，在接收到来自控制装置130的摄像指示时，服务器140将时刻同步信号发送至照相机系统110a～110j中的各照相机系统。然后，在步骤 903中，照相机系统110a～110j各自开始目标三维空间(这里为场地200上的三维空间)的摄像。由于此，例如，在照相机系统110i中，获得如图10A所示的足球比赛期间的图像。然后，在各照相机系统中进行视点彼此不同的诸如该图像等的图像的摄像。

在步骤904中，在照相机适配器112a～112j各自中，进行用以从步骤903 中所获取到的拍摄图像中提取包括移动的对象(这里为选手和球)的前景的数据的处理。该提取处理换句话说可被称为如下的处理：基于通过将步骤903 中所获取到的拍摄图像与前面所述的步骤602中所获取到的包括构造物的拍摄图像(图7B)进行比较而获得的差，来将拍摄图像分离成前景和背景。图10B 示出从图10A的拍摄图像(整体图像)中提取的仅前景的图像。在随后的步骤 905中，照相机适配器112a～112j各自将所提取的前景的图像数据发送至服务器140。此时，与场地200和足球球门202相对应的图像区域(背景的图像数据) 未被发送至服务器140。通过这样做，相应地抑制了数据传输量。

在步骤906中，基于用户指示，控制装置130将用以生成虚拟视点图像的指示(生成开始命令)连同与虚拟视点和注视点有关的信息一起发送至服务器 140。此时，希望创建并观看虚拟视点图像的用户经由控制装置130中所包括的GUI(未示意性示出)输入虚拟视点图像的生成所需的信息。具体地，用户经由预定的UI画面设置虚拟视点图像的生成所需的信息(以下称为“虚拟视点信息”)，诸如虚拟视点的位置和移动路径、以及注视哪个(哪个对象)等。

在步骤907中，服务器140通过使用从照相机组接收到的前景的图像数据和前面描述的照相机参数来生成摄像场景内的移动对象的三维模型(前景模型)。这里，生成选手和球的三维模型作为前景模型。图11是与前面所述的图 8相同、在体数据上示出该步骤中生成的选手和球的三维模型中的与一个特定选手相对应的三维模型的图。

在步骤908中，服务器140通过使用从控制装置130接收到的虚拟视图信息、步骤907中所获取到的前景模型、以及预先生成并获取到的构造物模型和背景数据，来生成虚拟视图图像。具体地，通过使用例如VisualHull方法来估计在从所设置的虚拟视点(虚拟照相机)观看构造物模型和前景模型各自的情况下的这两者各自的形状。作为形状估计处理的结果，获得表示摄像场景内存在的对象的三维形状的体数据。在获得从虚拟视点观看的对象的三维形状的情况下，接着，将这些对象的三维形状合成为一个图像。在合成处理时，在所设置的虚拟视点和前景模型之间的距离短于所设置的虚拟视点和构造物模型之间的距离的情况下，从构造物模型的上方映射前景模型。相反，在构造物模型比前景模型离虚拟视点更近的情况下，从前景模型的上方映射构造物模型。以这种方式，例如，在将从照相机系统110i的摄像单元111i的视点在高度方向(+z方向)上移动到的点作为虚拟视点的情况下的虚拟视图图像将会是如图10C所示的图像。在图10C所示的虚拟视图图像中，已知将作为前景模型的选手和球以及作为构造物模型的足球球门以自然的三维形状映射到场地200上。通过将诸如该处理等的处理重复与单独设置的时间帧的数量相对应的次数，获得了利用运动图像的期望的虚拟视图图像。

在本实施例中，通过在图9的序列中完全不传输背景图像数据来尝试抑制总数据传输量。在这种情况下，例如，在拍摄室外的运动场景的运动图像时，日照条件等随时间的经过而改变，因此可能出现完成的虚拟取景图像中的背景部分不同于实际的背景部分的问题。在担心这种问题的情况下，也可以在前景图像数据的传输之间适当地传输通过步骤904的前景/背景分离所获得的背景图像数据。

此外，在本实施例中，构造物模型的生成和前景模型的生成由服务器140 进行，但这不是限制性的。例如，照相机适配器也有可能生成构造物模型并将构造物模型发送至服务器140。可选地，服务器140也有可能获取其它信息处理设备所生成的构造物模型的数据。需要在根据从多视点图像提取的前景数据生成前景模型的阶段中产生服务器140可以使用构造物模型的状态。

<变形例>

在上述示例中，尝试通过将摄像场景内的构造物作为既不是前景也不是背景的独特属性的对象进行处理、并且预先生成并存储该构造物的三维模型，来减少数据传输量。从减少数据传输量的观点来看，也可以通过将构造物的三维模型作为背景进行处理来实现该目的。然而，在将构造物模型作为背景进行处理的情况下，发生以下问题。

图12是示出在摄像场景是相扑的情况下的构成根据本变形例的虚拟视点图像生成系统的总共十个照相机系统110a～110j的配置的图。照相机系统 110a～110j各自以围绕相扑台的方式安装在相扑会场的天花板处，并且通过从各种角度拍摄相扑台来获取视点彼此不同的多视点图像数据。在这种情况下，基于通过单独拍摄相扑台(＝构造物)所获得的图像来生成三维模型，并且将所获得的相扑台的三维形状作为背景进行处理。

这里，假定：例如，如图13A所示，作为两个相扑力士之间的对战的结果，相扑力士其中之一从相扑台摔下。考虑通过总共10个照相机系统 110a～110j拍摄到图13A的状态、并且仅前景的图像数据被发送至服务器140 的情况。接收到前景的图像数据的服务器140将作为前景的两个相扑力士映射到作为背景而预先创建的相扑台的三维模型上。作为其结果，将获得被推出并从相扑台摔下的力士正躺在相扑台上的图像。也就是说，在将生成三维模型的构造物作为背景进行处理的情况下，根据前景的位置不能获得自然的虚拟视点图像。结果，在将构造物模型作为背景进行处理的情况下，期望预先判断是否获得了自然的虚拟视点图像，并且在获得了不自然的虚拟视点图像的可能性高的情况下向用户发出警告。

图14是从正上方观看相扑台并且将相扑台的周围划分成四个区域A、B、C和D的情况下的鸟瞰图。区域A、B、C和D各自表示相扑台的下方(相扑台的外部)的部分。中央的×标记是照相机系统110a～110j内的摄像单元111a～111j 的注视点。在本变形例中，在给出用以生成虚拟视点图像的指示的情况下，确认前景的位置。在上述示例中，还基于离所指定的虚拟视点(虚拟照相机) 的距离或者未示意性示出的拍摄整个相扑台的鸟瞰图的照相机的图像来判断相扑力士的位置是否在相扑台上。然后，在力士至少之一不在相扑台上并且所指定的虚拟视点的位置和力士的位置不存在于A～D中的任一个的相同区域中的情况下，判断为不可能生成虚拟视点图像并且发出警告。原因在于，在虚拟视点的位置存在的区域与相扑力士的位置存在的区域不同的情况(诸如一个在A区域内并且另一个在C区域内的情况)下，生成将相扑力士粘贴到与实际位置不同的位置上的不自然的虚拟视点图像的可能性高。如上所述，在将构造物模型作为背景进行处理的情况下，需要注意这一点。

根据本实施例，对于构造物，预先创建该构造物的三维模型，并且将该三维模型以与其它前景模型不同的方式进行处理。由于此，可以在抑制作为虚拟视点图像的源的多视点图像的数据传输量的同时，生成无不协调感地表现摄像场景内的构造物的虚拟视点图像。

[第二实施例]

在第一实施例中，方面是这样的：通过将摄像场景内的构造物分离为既不是前景也不是背景的独特属性的对象、并且预先生成该对象的三维模型并将该三维模型存储在服务器中，来抑制数据传输量。接着，作为第二实施例，说明如下的方面：通过在将摄像场景内的构造物作为前景进行处理的同时、在对该构造物的数据进行间隔剔除之后传输该数据，来抑制数据传输量。省略或简化了与第一实施例的内容共同的内容(诸如系统结构等)的说明，并且以下主要说明不同点。

在本实施例中，与第一实施例中相同，通过采用将足球比赛视为摄像场景的情况作为示例来给出说明。也就是说，以下在照相机系统的配置与前面所述的图2中相同的前提下给出说明。在这种情况下，将作为构造物的足球球门作为前景模型进行处理，尽管仍区别于选手和球。图15是示出根据本实施例的在对摄像场景内的构造物部分的图像数据进行间隔剔除之后传输该图像数据的处理的流程的流程图。在用户经由控制装置130的UI给出用以拍摄作为虚拟视点图像的源的多视点图像的指示的情况下，在各照相机系统中开始图15中的流程的执行。也就是说，通过照相机适配器内的CPU等执行预定程序来实现该流程。

这里，在图15的流程的执行开始之前，需要完成该流程的准备处理。具体地，在照相机系统110A～110j各自中，预先分别获取通过在不存在构造物的状态下和在存在构造物的状态下拍摄场地200所获得的整体图像(参见图 7A和图7B)，并且将这些整体图像存储在照相机适配器112A～112j各自内的存储器中。该准备处理在体育馆的设置时(例如，在比赛开始之前)预先进行。通过准备处理所获得的这些图像的数据也被发送至服务器140并被存储在服务器140内的存储器中，以供在后面要说明的虚拟视点图像的生成处理中参考。在诸如该准备处理等的准备处理完成的前提下，可以进行图15的流程。

首先，在步骤1501中，在照相机适配器112a～112j各自中，初始化其内部所包括的计数器(未示意性示出)的值。具体地，作为初始值，设置“0”。在随后的步骤1502中，在摄像单元111a～111j各自中，开始根据从服务器140发送来的时刻同步信号的摄像。接着，在步骤1503中，根据当前计数器值是否是“0”，分支出以下的处理。在计数器值是“0”的情况下，处理进入步骤1507，并且在计数器值是“0”以外的值的情况下，处理进入步骤1504。

在步骤1504中，从计数器值中减去“1”(使计数器值递减)。在随后的步骤1505中，在照相机适配器112a～112j各自中，进行用以从摄像单元111a～111j 各自所拍摄到的图像(帧)中提取前景区域的处理。具体地，用以求出与拍摄图像的差的处理(前景/背景分离处理)是通过使用在准备处理中预先获取到并存储的两个图案的整体图像中的具有构造物的整体图像来进行的。这里，在准备处理中获取到的两个图案的整体图像中的具有构造物的整体图像中，在作为构造物的足球球门202安装在场地200上的状态下拍摄足球球门202(图7B)。结果，获得通过切出仅拍摄不包括足球球门的诸如选手和球等的移动对象的区域所获得的图像作为前景数据。然后，在步骤1506中，照相机适配器112a～112j各自将在步骤1505所获得的不包括构造物的前景数据发送至服务器140。在前景数据的发送完成之后，处理进入步骤1510，并且判断是否终止摄像。在未从服务器140接收到用以终止摄像的指示的情况下，处理返回到步骤1503。

在步骤1507中，在照相机适配器112a～112j各自中，进行用以从摄像单元 111a～111j各自所拍摄到的图像(帧)中提取前景区域的处理。具体地，通过使用在准备处理中预先获取到并存储的两个图案的整体图像中的无构造物的整体图像，来进行用以求出与拍摄图像的差的前景/背景分离处理。这里，在准备处理中获取到的两个图案的整体图像中的无构造物的整体图像中，仅拍摄在尚未安装足球球门202的状态下的场地200(图7A)。结果，获得了如下的图像作为前景数据，其中在该图像中，不仅拍摄选手和球的区域被切出，而且拍摄足球球门的区域也被切出。也就是说，在该步骤中，作为构造物的足球球门也被提取为前景。然后，在步骤1508中，照相机适配器112a～112j各自将步骤1507中所获得的“包括构造物的前景数据”发送至服务器140。此时，通过给出表示构造物的有无的信息(例如，用“1”表示包括构造物的情况并且用“0”表示不包括构造物的情况的二值标志)来进行发送，使得接收到了数据的服务器14侧知晓构造物的区域也包括在前景数据中。在随后的步骤1509 中，将预定值N(N＞1)设置到计数器。具体地，在摄像单元111a～111j各自所进行的运动图像拍摄的帧频例如是60fps的情况下，设置诸如“60”等的值。通过将要设置到计数器的预定值设置为任意值，用户可以自由地改变发送包括构造物的前景数据的频率(每N次进行1次)。在对计数器的预定值的设置完成之后，处理进入步骤1510，并且判断是否终止摄像。在服务器140未给出用以终止摄像的指示的情况下，处理返回到步骤1503。

以上是用以对摄像场景内的构造物部分的图像数据进行间隔剔除并传输的处理的内容。作为执行诸如该处理等的处理的结果，例如，在将与帧频的值相同的值作为预定值设置到计数器的情况下，每60次中仅有1次将包括构造物(这里为足球球门)的前景的图像数据传输至服务器140。当然，(针对各帧)在60次中的每1次均传输诸如选手和球等的移动对象。如上所述，可以以与诸如选手和球等的移动对象的帧频相比降低的帧频来传输与作为静止对象的构造物有关的图像信息，因此与针对各帧传输包括构造物的前景的图像数据的情况相比，可以显著提高传输效率。此外，通过以比不包括关于构造物的图像信息的前景图像的频率低的频率发送包括关于构造物的图像信息的前景图像，可以减少要传输的数据。

接着，说明在服务器140基于如上所述顺次发送的前景的图像数据来生成虚拟视点图像时的处理。图16是示出服务器140中的虚拟视点图像的生成处理的流程的流程图。针对照相机系统110a～110j各自所拍摄到并传输的所有前景的图像数据中的、与用户所指定的特定时间帧(例如，对应于10秒)相对应的作为目标的前景图像，以帧为单位进行图16的流程。该一系列处理通过服务器140内的CPU基于控制装置130的指示执行预定程序来实现。

首先，在步骤1601中，确定与所设置的时间帧相对应的前景的图像数据中的作为处理目标的关注前景图像(帧)。在随后的步骤1602中，基于前面描述的二进制标记来判断在关注前景图像中是否包括构造物。在判断结果表示在关注前景图像中包括构造物的情况下，处理进入步骤1603，并且在不包括构造物的情况下，处理进入步骤1605。

在步骤1603中，在关注前景图像中包括构造物的情况下，从关注前景图像中提取与该构造物相对应的图像区域，并且生成表示该构造物的图像(以下称为“构造物图像”)。该生成处理通过如下的过程来进行。首先，求出在前面所述的准备处理中获取到并存储的在存在构造物的状态下的拍摄图像(整体图像)与关注前景图像之间的差，并且取出与前景相对应的图像区域。接着，将所取出的与前景相对应的图像区域和预先存储的在不存在构造物的状态下的拍摄图像(整体图像)进行合成。然后，求出通过合成所获得的合成图像与关注前景图像之间的差，并且获得仅表示与构造物相对应的图像区域的构造物图像。然后，在步骤1604中，将步骤1603中所生成的构造物图像的数据存储在服务器140内的存储器中。在已存储了构造物图像的数据的情况下，用重新生成的构造物图像的数据覆盖(更新)该数据。在将所生成的构造物图像的数据存储在存储器中之后，处理进入步骤1607。

另一方面，在关注前景图像中不包括构造物的情况下的步骤1605中，读出在先前的步骤1603和步骤1604的处理中生成并存储的构造物图像的数据。在随后的步骤1606，将所读取的构造物图像和不包括构造物的关注前景图像进行合成，并且生成包括构造物的关注前景图像。

在步骤1607中，生成将构造物作为前景的一部分的摄像场景内的对象的三维模型(前景模型)。此时，在关注前景图像中原本包括构造物(步骤1602中为“是”)的情况下的步骤中，通过原样使用关注前景图像来生成前景模型。另一方面，在关注前景图像中原本不包括构造物的情况下的步骤中，通过使用在步骤1606中与构造物合成的关注前景图像来生成前景模型。在任何情况下，生成除包括诸如选手和球等的移动对象之外、还包括作为构造物(静止对象)的足球球门的前景模型。

在步骤1608中，基于与用户单独设置的虚拟视点有关的位置信息，通过估计在从该虚拟视点观看步骤1607中所生成的前景模型的情况下的形状来生成虚拟视点图像。

以上是根据本实施例的服务器140中的虚拟视点图像的生成处理的内容。如本实施例那样，通过在将摄像场景内的构造物作为前景进行处理的同时、在对该构造物的图像数据进行间隔剔除之后传输该图像数据，也可以获得与第一实施例中的效果相同的效果。

(其它实施例)

还可以通过如下的处理来实现本发明：将实现上述实施例的一个或多个功能的程序经由网络或存储介质供给至系统或设备，并且使得该系统或设备的计算机中的一个或多个处理器读取并执行该程序。此外，还可以通过实现一个或多个功能的电路(例如，ASIC)来实现本发明。

迄此为止参考实施例说明了本发明，但无需说明，本发明不限于上述的实施例。所附权利要求书的范围符合最宽的说明，以包含所有这类修改、等同结构和功能。

本申请要求2017年12月14日提交的日本专利申请2017-239888的权益，其全部内容通过引用而被包含于此。

Claims

1.一种用于生成虚拟视点图像的生成设备，包括：

第一获取单元，其被配置为获取与从多个方向拍摄的对象相对应的三维形状数据；

第二获取单元，其被配置为获取与从多个方向拍摄的构造物相对应的三维形状数据；

第三获取单元，其被配置为获取与从多个方向拍摄的至少不同于所述对象和所述构造物这两者的背景相对应的背景数据；

第四获取单元，其被配置为获取表示虚拟视点的信息；以及

生成单元，其被配置为基于所述第一获取单元所获取到的与所述对象相对应的三维形状数据、所述第二获取单元所获取到的与所述构造物相对应的三维形状数据、所述第三获取单元所获取到的所述背景数据、以及所述第四获取单元所获取到的表示所述虚拟视点的信息，来生成虚拟视点图像，

其中，所述第二获取单元基于通过在不存在所述对象和所述构造物的状态下的第一摄像所获得的拍摄图像、以及通过在存在所述构造物并且不存在所述对象的状态下的从与所述第一摄像的方向相同的方向的第二摄像所获得的拍摄图像，来通过生成与所述构造物相对应的三维形状数据而获取该三维形状数据。

2.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

所述第二获取单元在开始所述对象的摄像之前，通过生成与所述构造物相对应的三维形状数据而获取该三维形状数据。

3.根据权利要求1或2所述的用于生成虚拟视点图像的生成设备，其中，

基于如下的图像来生成与所述构造物相对应的三维形状数据，该图像是基于通过所述第一摄像所获得的拍摄图像和通过所述第二摄像所获得的拍摄图像的，并且该图像将所述构造物的区域表现为与其它区域有所区别。

4.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

所述生成单元进行以下操作：

在从所述第四获取单元所获取到的表示所述虚拟视点的信息所指定的虚拟视点到所述对象的距离短于从所指定的虚拟视点到所述构造物的距离的情况下，将与所述构造物相对应的三维形状数据和与所述对象相对应的三维形状数据进行合成，使得在所述虚拟视点图像中所述对象存在于所述构造物的前方；以及

在从所指定的虚拟视点到所述构造物的距离短于从所指定的虚拟视点到所述对象的距离的情况下，将与所述对象相对应的三维形状数据和与所述构造物相对应的三维形状数据进行合成，使得在所述虚拟视点图像中所述对象存在于所述构造物的后方。

5.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

所述对象是移动物体。

6.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

人物和球至少之一是所述对象。

7.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

所述构造物是持续静止状态的物体。

8.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

足球比赛中所使用的足球球门和角旗至少之一是所述构造物。

9.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

所述构造物是安装在预定位置处的物体。

10.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

所述构造物的至少一部分安装在作为对象的人物进行比赛的场地上。

11.根据权利要求1所述的用于生成虚拟视点图像的生成设备，其中，

所述构造物是所指定的物体。

12.一种用于生成虚拟视点图像的系统，包括：

第一生成单元，其被配置为基于通过从多个方向的摄像而获得的多个拍摄图像，来生成将构造物的区域和对象的区域表现为与其它区域有所区别的第一图像；

第二生成单元，其被配置为基于通过从多个方向的摄像而获得的多个拍摄图像，来生成将所述对象的区域表现为与其它区域有所区别的第二图像；

发送单元，其被配置为发送所述第一生成单元所生成的所述第一图像和所述第二生成单元所生成的所述第二图像；

第一获取单元，其被配置为基于从所述发送单元发送来的所述第一图像和所述第二图像这两者，来获取与所述对象相对应的三维形状数据；

第二获取单元，其被配置为基于从所述发送单元发送来的所述第一图像，来获取与所述构造物相对应的三维形状数据；

第三获取单元，其被配置为获取与至少不同于所述对象和所述构造物的背景的区域相对应的背景数据；

第四获取单元，其被配置为获取表示虚拟视点的信息；

第三生成单元，其被配置为基于所述第一获取单元所获取到的与所述对象相对应的三维形状数据、所述第二获取单元所获取到的与所述构造物相对应的三维形状数据、所述第三获取单元所获取到的所述背景数据、以及所述第四获取单元所获取到的表示所述虚拟视点的信息，来生成虚拟视点图像；以及

第四生成单元，其被配置为基于从所述发送单元发送来的所述第一图像和所述第二图像这两者，来生成将所述构造物的区域表现为与其它区域有所区别的第三图像，

其中，所述发送单元以比所述第二图像的频率低的频率发送所述第一图像。

13.根据权利要求12所述的用于生成虚拟视点图像的系统，其中，

所述第一获取单元和所述第二获取单元在物理上是相同的，并且在从所述发送单元发送所述第二图像的情况下，基于从所述发送单元发送来的所述第二图像和所述第四生成单元所生成的所述第三图像，来获取与所述对象相对应的三维形状数据和与所述构造物相对应的三维形状数据。

14.根据权利要求12所述的用于生成虚拟视点图像的系统，其中，

所述第三生成单元进行以下操作：

15.一种用于生成虚拟视点图像的生成方法，所述生成方法包括：

第一获取步骤，用于获取与从多个方向拍摄的对象相对应的三维形状数据；

第二获取步骤，用于获取与从多个方向拍摄的构造物相对应的三维形状数据；

第三获取步骤，用于获取与从多个方向拍摄的至少不同于所述对象和所述构造物这两者的背景相对应的背景数据；

第四获取步骤，用于获取表示虚拟视点的信息；以及

生成步骤，用于基于所述第一获取步骤中获取到的与所述对象相对应的三维形状数据、所述第二获取步骤中获取到的与所述构造物相对应的三维形状数据、所述第三获取步骤中获取到的所述背景数据、以及所述第四获取步骤中获取到的表示所述虚拟视点的信息，来生成虚拟视点图像，

其中，在所述第二获取步骤中，基于通过在不存在所述对象和所述构造物的状态下的第一摄像所获得的拍摄图像、以及通过在存在所述构造物并且不存在所述对象的状态下的从与所述第一摄像的方向相同的方向的第二摄像所获得的拍摄图像，来通过生成与所述构造物相对应的三维形状数据而获取该三维形状数据。

16.一种用于生成虚拟视点图像的生成方法，所述生成方法包括：

第一生成步骤，用于基于通过从多个方向的摄像而获得的多个拍摄图像，来生成将构造物的区域和对象的区域表现为与其它区域有所区别的第一图像；

第二生成步骤，用于基于通过从多个方向的摄像而获得的多个拍摄图像，来生成将所述对象的区域表现为与其它区域有所区别的第二图像；

发送步骤，用于发送所述第一生成步骤中生成的所述第一图像和所述第二生成步骤中生成的所述第二图像；

第一获取步骤，用于基于在所述发送步骤中发送的所述第一图像和所述第二图像这两者，来获取与所述对象相对应的三维形状数据；

第二获取步骤，用于基于所述发送步骤中发送的所述第一图像，来获取与所述构造物相对应的三维形状数据；

第三获取步骤，用于获取与至少不同于所述对象和所述构造物的背景的区域相对应的背景数据；

第四获取步骤，用于获取表示虚拟视点的信息；

第三生成步骤，用于基于所述第一获取步骤中获取到的与所述对象相对应的三维形状数据、所述第二获取步骤中获取到的与所述构造物相对应的三维形状数据、所述第三获取步骤中获取到的所述背景数据、以及所述第四获取步骤中获取到的表示所述虚拟视点的信息，来生成虚拟视点图像；以及

第四生成步骤，用于基于所述发送步骤中发送来的所述第一图像和所述第二图像这两者，来生成将所述构造物的区域表现为与其它区域有所区别的第三图像，

其中，在所述发送步骤中，以比所述第二图像的频率低的频率发送所述第一图像。

17.一种计算机可读存储介质，其存储有用于使得计算机执行根据权利要求15或16所述的用于生成虚拟视点图像的生成方法的程序。