CN117015805A

CN117015805A - 图像处理装置、图像处理方法及程序

Info

Publication number: CN117015805A
Application number: CN202280022056.XA
Authority: CN
Inventors: 宫田真彦; 青木贵嗣; 林健吉; 村上泰规
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2021-03-31
Filing date: 2022-02-14
Publication date: 2023-11-07
Also published as: EP4318406A1; WO2022209362A1; US20230419596A1; JPWO2022209362A1

Abstract

本发明提供一种图像处理装置，其具备：处理器；及存储器，与处理器连接或内置于处理器。处理器根据通过拍摄摄像区域所获得的多个摄像图像及多个视点信息来获取与根据多个摄像图像和多个视点信息生成的虚拟视点动画对应的代表图像，并且输出用于使代表图像以与虚拟视点动画不同的大小显示在显示器上的数据。

Description

图像处理装置、图像处理方法及程序

技术领域

本发明的技术涉及一种图像处理装置、图像处理方法及程序。

背景技术

在日本特开2018-046448号公报中，公开了一种图像处理装置，其特征在于，在根据使用多个照相机拍摄的多个视点影像来生成从虚拟照相机观察的影像即自由视点影像的图像处理装置中，所述图像处理装置具备：用户界面，用于由用户指定表示虚拟照相机的移动轨迹的照相机路径及表示由虚拟照相机注视的目的地即注视点的移动轨迹的注视点路径；及生成单元，根据经由用户界面指定的照相机路径及注视点路径来生成自由视点影像，用户界面构成为如下：在使用了在俯瞰下捕捉多个视点影像的摄影场景的二维图像的UI画面上显示多个视点影像中成为自由视点影像的生成对象的时间帧中的被摄体的时间序列的变化，并通过由用户对二维图像进行输入操作来描绘轨迹以指定照相机路径及注视点路径。并且，在日本特开2018-046448号公报中所记载的图像处理装置中，二维图像为静止图像，用户界面构成为如下：通过将以一定的间隔对时间帧进行采样而获得的预定的帧中的各被摄体以在时间轴方向上不同的状态重叠显示在静止图像上来显示被摄体的时间序列的变化。并且，在日本特开2018-046448号公报中所记载的图像处理装置中，用户界面构成为如下：沿由用户指定的照相机路径在时间轴方向上以一定的间隔配置从虚拟照相机观察时的缩略图像，并且经由用户对缩略图像进行输入操作来调整虚拟照相机的路径、高度、移动速度。

在日本特开2017-212592号公报中，公开了一种控制装置，其特征在于，在根据由用于从多个方向拍摄被摄体的多个照相机进行拍摄而获得的图像数据，由图像生成装置生成虚拟视点图像的系统中，所述系统具有：接收单元，接收基于用于指定虚拟视点图像的生成所涉及的视点的用户的指示；获取单元，获取用于确定限制区域的信息，所述限制区域根据由接收单元接收的指示进行的视点的指定被限制，并且根据与系统中所包含的装置的动作状态及图像数据相关的参数中的至少任一个而发生变化；及显示控制单元，根据由获取单元获取的信息，使基于与限制区域对应的显示控制的图像显示在显示部上。

在日本特开2014-126906号公报中，记载有如下内容：在自由视点播放处理中，可以设为在开始播放动态图像之前，由用户选择的任一个摄像装置的显示控制部一览显示与由多个摄像装置拍摄的动态图像对应的缩略图像，在其中从由用户选择的图像开始播放。

发明内容

本发明的技术所涉及的一个实施方式提供一种能够向观看者显示与虚拟视点动画对应的代表图像的图像处理装置、图像处理方法及程序。

用于解决技术课题的手段

本发明的技术所涉及的第1方式为图像处理装置，其具备：处理器；及存储器，与处理器连接或内置于处理器，处理器进行如下处理：根据通过拍摄摄像区域所获得的多个摄像图像及多个视点信息来获取与根据多个摄像图像和多个视点信息生成的虚拟视点动画对应的代表图像；及输出用于使代表图像以与虚拟视点动画不同的大小显示在显示器上的数据。

本发明的技术所涉及的第2方式为第1方式所涉及的图像处理装置，其中，代表图像为在虚拟视点动画中与包含摄像区域内的第1被摄体的多帧中的第1帧相关的图像。

本发明的技术所涉及的第3方式为第2方式所涉及的图像处理装置，其中，第1被摄体为根据虚拟视点动画中所包含的时间确定的被摄体。

本发明的技术所涉及的第4方式为第2方式或第3方式所涉及的图像处理装置，其中，第1帧为根据在虚拟视点动画内的第1被摄体的尺寸确定的帧。

本发明的技术所涉及的第5方式为第1方式至第4方式中的任一个方式所涉及的图像处理装置，其中，处理器根据多个视点信息的编辑结果来获取代表图像。

本发明的技术所涉及的第6方式为第5方式所涉及的图像处理装置，其中，多个视点信息具有多个视点路径，编辑结果包含对多个视点路径进行编辑的结果。

本发明的技术所涉及的第7方式为第1方式至第6方式中的任一个方式所涉及的图像处理装置，其中，处理器根据多个视点信息之间的差异程度来获取代表图像。

本发明的技术所涉及的第8方式为第7方式所涉及的图像处理装置，其中，多个视点信息具有多个视点路径，差异程度为多个视点路径之间的差异程度。

本发明的技术所涉及的第9方式为第1方式至第8方式中的任一个方式所涉及的图像处理装置，其中，多个视点信息具有多个视点路径，处理器根据多个视点路径的位置关系来获取代表图像。

本发明的技术所涉及的第10方式为第9方式所涉及的图像处理装置，其中，位置关系为多个视点路径相对于摄像区域内的第2被摄体的位置关系。

本发明的技术所涉及的第11方式为第1方式至第10方式中的任一个方式所涉及的图像处理装置，其中，处理器进行如下处理：从多个虚拟视点动画中检索符合所提供的检索条件的检索条件符合虚拟视点动画；及根据检索条件符合虚拟视点动画来获取代表图像。

本发明的技术所涉及的第12方式为第1方式至第11方式中的任一个方式所涉及的图像处理装置，其中，代表图像为根据摄像区域内的第3被摄体的状况而确定的图像。

本发明的技术所涉及的第13方式为第1方式至第12方式中的任一个方式所涉及的图像处理装置，其中，代表图像为根据与虚拟视点动画有关的人物的属性而确定的图像。

本发明的技术所涉及的第14方式为第1方式至第13方式中的任一个方式所涉及的图像处理装置，其中，代表图像为表示虚拟视点动画的内容的图像。

本发明的技术所涉及的第15方式为第1方式至第14方式中的任一个方式所涉及的图像处理装置，其中，多个视点信息包含视点不同的第1视点信息及第2视点信息，第1视点信息及第2视点信息具有与不同的时刻相关的信息。

本发明的技术所涉及的第16方式为第1方式至第15方式中的任一个方式所涉及的图像处理装置，其中，处理器进行如下处理：输出用于使代表图像显示在第1显示器上的第1数据；及输出用于响应于显示在第1显示器上的代表图像的选择而使与代表图像对应的虚拟视点动画显示在第1显示器及第2显示器中的至少一个上的第2数据。

本发明的技术所涉及的第17方式为第1方式至第16方式中的任一个方式所涉及的图像处理装置，其中，处理器在将代表图像与虚拟视点动画建立关联的状态下存储于存储器中。

本发明的技术所涉及的第18方式为图像处理装置，其具备：处理器；及存储器，与处理器连接或内置于处理器，处理器进行如下处理：根据通过拍摄摄像区域所获得的多个摄像图像及多个视点信息来获取与根据多个摄像图像和多个视点信息生成的虚拟视点动画对应的代表图像；及输出用于使代表图像显示在显示多个图像的画面上的数据。

本发明的技术所涉及的第19方式为图像处理方法，其包括如下动作：根据通过拍摄摄像区域所获得的多个摄像图像及多个视点信息来获取与根据多个摄像图像和多个视点信息生成的虚拟视点动画对应的代表图像；以及输出用于使代表图像以与虚拟视点动画不同的大小显示在显示器上的数据。

本发明的技术所涉及的第20方式为程序，其用于使计算机执行处理，所述处理包括如下动作：根据通过拍摄摄像区域所获得的多个摄像图像及多个视点信息来获取与根据多个摄像图像和多个视点信息生成的虚拟视点动画对应的代表图像；以及输出用于使代表图像以与虚拟视点动画不同的大小显示在显示器上的数据。

附图说明

图1是表示图像处理系统的结构的一例的概念图。

图2是表示用户设备的电气系统的硬件结构的一例的框图。

图3是表示图像处理装置的CPU的主要功能的一例的框图。

图4是表示接收画面生成部的处理内容的一例及用户设备的显示器的显示内容的一例的概念图。

图5是表示用户设备的动作模式为视点设定模式时的接收画面的显示形态的一例的画面图。

图6是表示用户设备的动作模式为注视点设定模式时的接收画面的显示形态的一例的画面图。

图7是表示视点信息的内容的一例及视点信息从用户设备发送至图像处理装置的方式的一例的框图。

图8是表示虚拟视点动画生成部的处理内容的一例的概念图。

图9是表示获取部、提取部、选择部及加工部的处理内容的一例的概念图。

图10是表示加工部及一览画面生成部的处理内容的一例的概念图。

图11是表示画面生成处理的流程的一例的流程图。

图12是表示图像处理装置的CPU的主要功能的一例的框图。

图13是表示编辑视点路径的方式的一例的概念图。

图14是表示视点信息的内容的一例及视点信息从用户设备发送至图像处理装置的方式的一例的框图。

图15是表示虚拟视点动画生成部的处理内容的一例的概念图。

图16是表示编辑结果处理部的处理内容的一例的概念图。

图17是表示获取部、提取部、选择部及加工部的处理内容的一例的概念图。

图18是表示加工部及一览画面生成部的处理内容的一例的概念图。

图19是表示图像处理装置的CPU的主要功能的一例的框图。

图20是表示由用户指定第1视点路径及第2视点路径的方式的一例的概念图。

图21是表示第1视点路径信息的内容及第2视点路径信息的内容的一例的概念图。

图22是表示第1视点路径信息及第2视点路径信息从用户设备发送至图像处理装置的方式的一例的框图。

图23是表示虚拟视点动画生成部的处理内容的一例的概念图。

图24是表示第1虚拟视点动画及第2虚拟视点动画存储于存储设备(storage)中的方式的一例的概念图。

图25是表示差异程度计算部的处理内容的一例的概念图。

图26是表示由获取部、提取部、选择部及加工部对第1虚拟视点动画进行处理的方式的一例的概念图。

图27是表示由获取部、提取部、选择部及加工部对第2虚拟视点动画进行处理的方式的一例的概念图。

图28是表示图像处理装置的CPU的主要功能的一例的框图。

图29是表示第1视点路径信息及第2视点路径信息从用户设备发送至图像处理装置的方式的一例的框图。

图30是表示被摄体位置特定部的处理内容的一例的概念图。

图31是表示视点位置特定部的处理内容的一例的概念图。

图32是表示由获取部及加工部对第1虚拟视点动画进行处理的方式的一例的概念图。

图33是表示由获取部及加工部对第2虚拟视点动画进行处理的方式的一例的概念图。

图34是表示图像处理装置的CPU的主要功能的一例的框图。

图35是表示检索条件赋予部及获取部的处理内容的一例的概念图。

图36是表示图像处理装置的CPU的主要功能的一例的框图。

图37是表示状况识别部及获取部的处理内容的一例的概念图。

图38是表示图像处理装置的CPU的主要功能的一例的框图。

图39是表示人物属性被摄体识别部及获取部的处理内容的一例的概念图。

图40是表示第1视点路径信息的内容及第2视点路径信息的内容的一例的概念图。

图41是表示将存储于存储介质中的画面生成处理程序安装于图像处理装置的计算机中的方式的一例的概念图。

具体实施方式

根据附图对本发明的技术所涉及的图像处理装置、图像处理方法及程序的实施方式的一例进行说明。

首先，对以下说明中所使用的术语进行说明。

CPU是指“Central Processing Unit：中央处理器”的缩写。GPU是指“GraphicsProcessing Unit：图形处理器”的缩写。TPU是指“Tensor processing unit：张量处理器”的缩写。RAM是指“Random Access Memory：随机存取存储器”的缩写。SSD是指“Solid StateDrive：固态硬盘”的缩写。HDD是指“Hard Disk Drive：硬盘驱动器”的缩写。EEPROM是指“Electrically Erasable and Programmable Read Only Memory：电可擦和可编程只读存储器”的缩写。I/F是指“Interface：接口”的缩写。ASIC是指“Application SpecificIntegrated Circuit：专用集成电路”的缩写。PLD是指“Programmable Logic Device：可编程逻辑器件”的缩写。FPGA是指“Field-Programmable Gate Array：现场可编程门阵”的缩写。SoC是指“System-on-a-chip：片上系统”的缩写。CMOS是指“Complementary MetalOxide Semiconductor：互补金属氧化物半导体”的缩写。CCD是指“Charge CoupledDevice：电荷耦合器件”的缩写。EL是指“Electro-Luminescence：电致发光”的缩写。LAN是指“Local Area Network：局域网”的缩写。USB是指“Universal Serial Bus：通用串行总线”的缩写。“HMD”是指“Head Mounted Display：头戴式显示器”的缩写。LTE是指“LongTerm Evolution：长期演进”的缩写。5G是指“5th generation(wireless technology fordigital cellular networks)：第五代(数字蜂窝网络的无线技术)”的缩写。TDM是指“Time-Division Multiplexing：时分多路复用”的缩写。AI是指“ArtificialIntelligence：人工智能”的缩写。并且，在本说明书中，图像(在包含静止图像及动态图像的意义上的图像)中所包含的被摄体是指在图像中作为图像(例如，电子图像)包含的被摄体。

[第1实施方式]

作为一例，如图1所示，图像处理系统2具备图像处理装置10及用户设备12。

在本第1实施方式中，作为图像处理装置10的一例，可以应用服务器。服务器例如由大型商业服务器实现。但是，这仅仅是一例，例如服务器可以通过云计算、雾计算、边缘计算或网格计算等网络计算来实现。并且，图像处理装置10可以为多个服务器，也可以为工作站，也可以为个人计算机，也可以为将至少一个工作站和至少一个个人计算机组合而成的装置，也可以为将至少一个工作站、至少一个个人计算机及至少一个服务器组合而成的装置等。

并且，在本第1实施方式中，作为用户设备12的一例，可以应用智能手机。但是，智能手机仅仅是一例，例如可以为个人计算机，也可以为平板终端或HMD等便携式多功能终端。

并且，在本第1实施方式中，图像处理装置10及用户设备12例如经由基站(省略图示)以能够通信的方式连接。基站中所使用的通信标准包含如下标准：包含5G标准和/或LTE标准等的无线通信标准；包含WiFi(802.11)标准和/或Bluetooth(注册商标)标准的无线通信标准；及包含TDM标准和/或以太网(注册商标)标准的有线通信标准。

图像处理装置10获取图像，并将所获取的图像发送至用户设备12。其中，图像例如是指通过拍摄而获得的摄像图像64(参考图4)及根据摄像图像64(参考图4等)生成的图像等。作为根据摄像图像(参考图4)生成的图像的一例，可以举出虚拟视点图像76(参考图8等)。

用户设备12由用户14使用。用户设备12具备触摸屏显示器16。触摸屏显示器16由显示器18及触摸屏20实现。作为显示器18的一例，可以举出EL显示器(例如，有机EL显示器或无机EL显示器)。另外，并不限于EL显示器，也可以为液晶显示器等其他种类的显示器。

触摸屏显示器16通过使触摸屏20与显示器18的显示区域重叠、或通过使其成为在显示器18的内部内置有触摸屏功能的内嵌型来形成。另外，内嵌型仅仅是一例，也可以为外挂型或外嵌型。

用户设备12执行与通过触摸屏20等从用户接收的指示对应的处理。例如，用户设备12根据通过触摸屏20等从用户接收的指示，在与图像处理装置10之间进行各种信息的收发。

用户设备12接收从图像处理装置10发送的图像，并使所接收的图像显示在显示器18上。用户14观看显示在显示器18上的图像。

图像处理装置10具备计算机22、收发装置24及通信I/F26。计算机22为本发明的技术所涉及的“计算机”的一例，并且具备处理器28、存储设备30及RAM32。图像处理装置10具备总线34，处理器28、存储设备30及RAM32经由总线34连接。在图1所示的例中，为了便于图示，作为总线34图示了一条总线，但是也可以为多条总线。并且，总线34可以包含串行总线或由数据总线、地址总线及控制总线等构成的并行总线。

处理器28为本发明的技术所涉及的“处理器”的一例。处理器28控制图像处理装置10的整体。例如，处理器28具有CPU及GPU，GPU在CPU的控制下动作，并负责执行图像处理。

存储设备30存储各种参数及各种程序等。作为存储设备30的一例，可以举出EEPROM、SSD和/或HDD。存储设备30为本发明的技术所涉及的“存储器”的一例。RAM32临时存储各种信息。RAM32由处理器28用作工作存储器。

收发装置24与总线34连接。收发装置24为包含通信用处理器(省略图示)及天线等的装置，在处理器28的控制下经由基站(省略图示)在与用户设备12之间进行各种信息的收发。即，处理器28经由收发装置24在与用户设备12之间进行各种信息的收发。

通信I/F26例如由具有FPGA的设备实现。通信I/F26经由LAN电缆(省略图示)与多个摄像装置36连接。摄像装置36为具有CMOS图像传感器的摄像用设备，并且搭载有光学变焦功能和/或数码变焦功能。另外，可以采用CCD图像传感器等其他种类的图像传感器来代替CMOS图像传感器。

例如，多个摄像装置36设置于足球体育场(省略图示)上，并拍摄足球体育场内的被摄体。通过由摄像装置36拍摄被摄体而获得的摄像图像64(参考图4)例如用于生成虚拟视点图像76(参考图8等)。因此，多个摄像装置36中的每一个设置于足球体育场内彼此不同的部位、即可以获得能够生成虚拟视点图像76(参考图8等)的多个摄像图像64(参考图4)的部位上。其中，多个摄像图像64为本发明的技术所涉及的“多个摄像图像”的一例。并且，足球体育场为本发明的技术所涉及的“摄像区域”的一例。

足球体育场为包含足球场和以包围足球场的方式建设的观众席的三维区域，并且设为用户14的观察对象。观察者、即用户14能够从观众席或足球体育场外的场所通过由用户设备12的显示器18显示的图像来观察足球体育场内。

另外，其中，作为一例，例示足球体育场作为设置多个摄像装置36的场所，但是本发明的技术并不限定于此，关于设置多个摄像装置36的场所，如棒球场、橄榄球场、冰壶场、田径赛场、游泳场、音乐厅、户外音乐场及剧场等那样，只要为能够设置多个摄像装置36的场所，则可以为任何场所。

通信I/F26与总线34连接，并且在处理器28与多个摄像装置36之间管理各种信息的收发。例如，通信I/F26根据处理器28的要求来控制多个摄像装置36。通信I/F26将通过由多个摄像装置36中的每一个拍摄而获得的摄像图像64(参考图4)输出至处理器28。另外，其中，通信I/F26例示为有线通信I/F，但是也可以为高速无线LAN等无线通信I/F。

存储设备30存储画面生成处理程序38。画面生成处理程序38为本发明的技术所涉及的“程序”的一例。处理器28通过从存储设备30读取画面生成处理程序38且在RAM32上执行画面生成处理程序38来进行画面生成处理(参考图11)。

作为一例，如图2所示，用户设备12具备显示器18、计算机40、摄像装置42、收发装置44、扬声器46、麦克风48及接收设备50。计算机40具备处理器52、存储设备54及RAM56。用户设备12具备总线58，处理器52、存储设备54及RAM56经由总线58连接。

在图2所示的例中，为了便于图示，作为总线58图示了一条总线，但是也可以为多条总线。并且，总线58可以包含串行总线或由数据总线、地址总线及控制总线等构成的并行总线。

处理器52控制用户设备12的整体。处理器52例如具有CPU及GPU，GPU在CPU的控制下动作，并负责执行图像处理。

存储设备54存储各种参数及各种程序等。作为存储设备54的一例，可以举出EEPROM。RAM56临时存储各种信息。RAM56由处理器52用作工作存储器。处理器52通过从存储设备54读取各种程序且在RAM56上执行各种程序以根据各种程序进行处理。

摄像装置42为具有CMOS图像传感器的摄像用设备，并且搭载有光学变焦功能和/或数码变焦功能。另外，可以采用CCD图像传感器等其他种类的图像传感器来代替CMOS图像传感器。摄像装置42与总线58连接，处理器52控制摄像装置42。通过由摄像装置42拍摄而获得的摄像图像经由总线58由处理器52获取。

收发装置44与总线58连接。收发装置44为包含通信用处理器(省略图示)及天线等的装置，在处理器52的控制下经由基站(省略图示)在与图像处理装置10之间进行各种信息的收发。即，处理器52经由收发装置44在与图像处理装置10之间进行各种信息的收发。

扬声器46将电信号转换成声音。扬声器46与总线58连接。扬声器46经由总线58接收从处理器52输出的电信号，将所接收的电信号转换成声音，并将电信号转换而获得的声音输出至用户设备12的外部。

麦克风48将所收集的声音转换成电信号。麦克风48与总线58连接。将由麦克风48收集的声音转换而获得的电信号经由总线58由处理器52获取。

接收设备50接收来自用户14等的指示。作为接收设备50的一例，可以举出触摸屏20及硬键(省略图示)等。接收设备50与总线58连接，由接收设备50接收的指示由处理器52获取。

作为一例，如图3所示，在图像处理装置10中，处理器28通过从存储设备30读取画面生成处理程序38且在RAM22C上执行画面生成处理程序38以作为接收画面生成部28A、虚拟视点动画生成部28B、获取部28C、提取部28D、选择部28E、加工部28F及一览画面生成部28G而动作。以下，对由接收画面生成部28A、虚拟视点动画生成部28B、获取部28C、提取部28D、选择部28E、加工部28F及一览画面生成部28G进行的处理内容的一例进行说明。

作为一例，如图4所示，在用户设备12的触摸屏显示器16上显示接收画面66及虚拟视点动画画面68。在图4所示的例中，在触摸屏显示器16上排列显示有接收画面66及虚拟视点动画画面68。另外，这仅仅是一例，也可以根据从用户14向触摸屏显示器16提供的指示来切换显示接收画面66和虚拟视点动画画面68，也可以设为由不同的显示设备单独显示接收画面66和虚拟视点动画画面68。

并且，在图4所示的例中，在用户设备12的触摸屏显示器16上显示有接收画面66，但是本发明的技术并不限定于此，例如可以设为在与制作或者编辑虚拟视点动画78(参考图8)的人所使用的设备(例如，工作站和/或个人计算机等)连接的显示器上显示接收画面66。

用户设备12通过与图像处理装置10进行通信，从图像处理装置10获取虚拟视点动画78(参考图8)。在触摸屏显示器16的虚拟视点动画画面68上显示由用户设备12从图像处理装置10获取的虚拟视点动画78(参考图8)。在图4所示的例中，在虚拟视点动画画面68上没有显示虚拟视点动画78。

用户设备12通过与图像处理装置10进行通信，从图像处理装置10获取表示接收画面66的接收画面数据70。在触摸屏显示器16上显示根据由用户设备12从图像处理装置10获取的接收画面数据70表示的接收画面66。

接收画面66包含俯瞰影像画面66A、引导消息显示区域66B、确定键66C及取消键66D，并且显示生成虚拟视点动画78(参考图8)时所需的各种信息。用户14参考接收画面66向用户设备12提供指示。来自用户14的指示例如由触摸屏显示器16接收。

在俯瞰影像画面66A上显示俯瞰影像72。俯瞰影像72为表示在俯瞰观察足球体育场内时的状态的动态图像，并且根据通过由多个摄像装置36中的至少一个拍摄而获得的多个摄像图像64生成。作为俯瞰影像72的一例，可以举出录像影像和/或现场直播影像等。

在引导消息显示区域66B上显示表示对用户14要求的操作的内容的各种消息。对用户14要求的操作例如是指生成虚拟视点动画78(参考图8)时所需的操作(例如，设定视点的操作及设定注视点的操作等)。

引导消息显示区域66B的显示内容根据用户设备12的动作模式来切换。例如，用户设备12具有设定视点的视点设定模式和设定注视点的注视点设定模式作为动作模式，并且根据视点设定模式的情况和注视点设定模式的情况而引导消息显示区域66B的显示内容不同。

确定键66C及取消键66D均为软键。确定键66C在确定由接收画面66接收的指示的情况下由用户14接通。取消键66D在取消由接收画面66接收的指示的情况下由用户14接通。

接收画面生成部28A从多个摄像装置36获取多个摄像图像64。摄像图像64包含摄像条件信息64A。摄像条件信息64A是指表示摄像条件的信息。作为摄像条件的一例，可以举出能够确定摄像装置36的设置位置的三维坐标、基于摄像装置36的摄像方向及基于摄像装置36的摄像中所使用的视角及在摄像装置36中应用的变焦倍率等。

接收画面生成部28A根据从多个摄像装置36获取的多个摄像图像64来生成俯瞰影像72。然后，接收画面生成部28A生成表示包含俯瞰影像72的接收画面66的数据作为接收画面数据70。

接收画面生成部28A将接收画面数据70输出至收发装置24。收发装置24将从接收画面生成部28A输入的接收画面数据70发送至用户设备12。用户设备12由收发装置44参考图2)接收从收发装置24发送的接收画面数据70。根据由收发装置44接收的接收画面数据70表示的接收画面66显示在触摸屏显示器16上。

作为一例，如图5所示，在用户设备12的动作模式为视点设定模式的情况下，在接收画面66的引导消息显示区域66B上显示消息66B1。消息66B1为向用户14提示用于生成虚拟视点动画78(参考图8)的视点的指示的消息。其中，视点是指观察足球体育场内的虚拟视点。虚拟视点例如不是指设置如拍摄被摄体的物理照相机(例如，摄像装置36)那样实际存在的照相机的位置，而是指设置拍摄被摄体的虚拟照相机的位置。

触摸屏显示器16在引导消息显示区域66B上显示有消息66B1的状态下接收来自用户14的指示。此时，来自用户14的指示是指视点的指示。视点与俯瞰影像72内的像素的位置对应。俯瞰影像72内的像素的位置与足球体育场内的位置对应。关于视点的指示，通过由用户14经由触摸屏显示器16指示俯瞰影像72内的像素的位置来进行。另外，视点可以为与俯瞰影像72内的三维位置对应的三维的坐标。指示三维位置的方法能够使用任意方法。例如，用户14可以直接输入三维的坐标位置，也可以通过显示从彼此垂直的两个平面观看足球体育场时的两个图像并分别指定像素位置来指定三维的坐标位置。

在图5所示的例中，作为视点的一例，示出观察被摄体的路径即视点路径P1。视点路径P1为从起点P1s至终点P1e以线状排列多个视点的集合体。视点路径P1沿用户14在触摸屏20的整个区域中与俯瞰影像72的显示区域对应的区域中使自身的指尖14A滑动(轻扫)的路径(在图5所示的例中，从起点P1s至终点P1e的曲折的路径)被限定。并且，从视点路径P1的观察时间(例如，在两个不同的视点之间观察的时间和/或在某一点上静止观察的时间等)通过在经由触摸屏显示器16形成视点路径P1的情况下在触摸屏显示器16上进行的滑动的速度及停留在视点路径P1上的一个视点上的时间(例如，长按的时间)等来限定。

在图5所示的例中，在确定视点路径P1的情况下，确定键66C被接通，在取消视点路径P1的情况下，取消键66D被接通。

另外，在图5所示的例中，仅设定视点路径P1，但是这仅仅是一例，也可以设定多个视点路径。并且，并不限于视点路径，也可以为多个不连续的视点，也可以为一个视点。

作为一例，如图6所示，在用户设备12的动作模式为注视点设定模式的情况下，在接收画面66的引导消息显示区域66B上显示消息66B2。消息66B2为向用户14提示用于生成虚拟视点动画78(参考图8)的注视点的指示的消息。其中，注视点是指在从视点观察足球体育场内的情况下虚拟注视的点。若设定视点及注视点，则虚拟视线方向(虚拟照相机的摄像方向)也唯一确定。虚拟视线方向是指从视点朝向注视点的方向。

触摸屏显示器16在引导消息显示区域66B上显示有消息66B2的状态下接收来自用户14的指示。此时，来自用户14的指示是指注视点的指示。注视点与俯瞰影像72内的像素的位置对应。俯瞰影像72内的像素的位置与足球体育场内的位置对应。关于注视点的指示，通过由用户14经由触摸屏显示器16指示俯瞰影像72内的像素的位置来进行。在图6所示的例中，示出注视点GP。注视点GP根据用户14在触摸屏显示器16的整个区域中与俯瞰影像72的显示区域对应的区域中使自身的指尖14A触摸的部位来限定。在图6所示的例中，在确定注视点GP的情况下，确定键66C被接通，在取消注视点GP的情况下，取消键66D被接通。另外，注视点可以为与俯瞰影像72内的三维位置对应的三维的坐标。与视点位置的指示相同地，指示三维位置的方法能够使用任意手法。

另外，在图6所示的例中，仅指定注视点GP，但是这仅仅是一例，也可以为多个注视点，也可以为以线状排列多个注视点的路径(注视点路径)。注视点路径可以为一个，也可以为多个。

作为一例，如图7所示，用户设备12的处理器52根据视点路径P1及注视点GP来生成多个视点信息74。多个视点信息74为本发明的技术所涉及的“多个视点信息”的一例。

视点信息74为用于生成虚拟视点动画78(参考图8)的信息。视点信息74包含视点位置信息74A、视线方向信息74B、视角信息74C、移动速度信息74D及经过时间信息74E。

视点位置信息74A为能够确定视点的位置(以下，也称为“视点位置”)的信息。视点位置例如是指上述虚拟照相机的位置。其中，作为视点位置的一例，应用在视点设定模式下确定的视点路径P1(参考图5)中所包含的一个视点的俯瞰影像72内的像素的位置。作为确定视点路径P1在俯瞰影像72内的像素的位置的信息的一例，可以举出确定在俯瞰影像72内的视点路径P1的像素的位置的坐标。

视点路径P1包含起点P1s及终点P1e(参考图5)。因此，表示视点路径P1中所包含的所有视点的多个视点位置信息74A也包含能够确定起点P1s的位置的起点位置信息(以下，也简称为“起点位置信息”)及能够确定终点P1e的位置的终点位置信息(以下，也简称为“终点位置信息”)。作为起点位置信息的一例，可以举出能够确定在俯瞰影像72内的起点P1s的像素的位置的坐标。作为终点位置信息的一例，可以举出能够确定在俯瞰影像72内的终点P1e的像素的位置的坐标。

视线方向信息74B为能够确定视线方向的信息。视线方向例如是指从视点路径P1中所包含的视点朝向注视点GP观察被摄体的方向。视线方向信息74B例如针对由表示视点路径P1中所包含的所有视点的多个视点位置信息74A确定的每个视点确定，并且通过能够确定视点的位置的信息(例如，能够确定在俯瞰影像72内的视点的像素的位置的坐标)及能够确定在注视点设定模式下确定的注视点GP的位置的信息(例如，确定在俯瞰影像72内的注视点GP的像素的位置的坐标)来限定。

视角信息74C为表示视角(以下，也简称为“视角”)的信息。其中，视角是指在视点路径P1上观察被摄体的观察角。在本第1实施方式中，视角固定为规定角度(例如，100度)。但是，这仅仅是一例，视角可以根据移动速度来确定。其中，移动速度是指观察被摄体的视点位置在视点路径P1上移动的速度。作为移动速度的一例，可以举出在经由触摸屏显示器16形成视点路径P1的情况下对触摸屏显示器16进行的滑动的速度。

在视角根据移动速度而确定的情况下，例如，在确定视角的上限(例如，150度)和下限(例如，15度)的范围内，移动速度越慢，视角越窄。并且，也可以移动速度越快，视角越窄。

并且，视角也可以根据与视点位置对应的经过时间(以下，也简称为“经过时间”)而确定。其中，经过时间例如是指视点在视点路径P1上的某个视点位置上静止的时间。

在视角根据经过时间而确定的情况下，例如只要在经过时间超过了第1规定时间(例如，3秒)的情况下使视角最小或者在经过时间超过了第1规定时间的情况下使视角最大即可。

并且，视角可以根据由接收设备50接收的指示来确定。此时，只要由接收设备50接收在视点路径P1上变更视角的视点位置及与变更后的视角相关的指示即可。

移动速度信息74D为表示上述移动速度(以下，也简称为“移动速度”)的信息，并且针对视点路径P1内的相对应的每个视点建立对应关联。经过时间信息74E为表示经过时间的信息。

处理器52将多个视点信息74输出至收发装置44。收发装置44将从处理器52输入的多个视点信息74发送至图像处理装置10。图像处理装置10的收发装置24接收从收发装置44发送的多个视点信息74。图像处理装置10的虚拟视点动画生成部28B获取由收发装置24接收的多个视点信息74。

作为一例，如图8所示，虚拟视点动画生成部28B根据多个视点信息74(例如，能够确定图5所示的视点路径P1的多个视点信息74)来选择用于生成虚拟视点图像76的多个摄像图像64(参考图4)。即，虚拟视点动画生成部28B从通过由多个摄像装置36(参考图1及图4)拍摄而获得的多个摄像图像64选择多个摄像图像64(参考图4)，所述多个摄像图像64用于生成表示根据多个视点信息74观察被摄体时的被摄体的状态的图像即虚拟视点图像76。

虚拟视点动画生成部28B根据多个视点信息74及多个摄像图像64来生成虚拟视点动画78。即，虚拟视点动画生成部28B根据由多个视点信息74选择的多个摄像图像64来生成表示从由多个视点信息74(例如，能够确定图5所示的视点路径P1的多个视点信息74)确定的视点观察被摄体时的被摄体的状态的动画即虚拟视点动画78。

例如，虚拟视点动画生成部28B根据视点路径P1(参考图5)来生成多帧的虚拟视点动画76。即，虚拟视点动画生成部28B针对视点路径P1上的每个视点生成虚拟视点图像76。虚拟视点动画生成部28B通过将多帧的虚拟视点图像76按时间顺序排列来生成虚拟视点动画78。以这种方式生成的虚拟视点动画78为用于显示在用户设备12的触摸屏显示器16上的数据。虚拟视点动画78显示在触摸屏显示器16上的时间根据多个视点信息74(例如，表示图1所示的视点路径P1的多个视点信息74)来确定。

虚拟视点动画生成部28B针对虚拟视点动画78中所包含的多帧的虚拟视点图像76的各自赋予元数据76A。元数据76A例如由虚拟视点动画生成部28B根据用于生成虚拟视点图像76的摄像图像64中所包含的摄像条件信息64A(参考图4)来生成。元数据76A包含生成了虚拟视点图像76的时刻及基于摄像条件信息64A的信息。

虚拟视点动画生成部28B在每次生成虚拟视点动画78时，向虚拟视点动画78赋予动画识别信息80。动画识别信息80包含唯一分配给虚拟视点动画78的标识符，并用于确定虚拟视点动画78。并且，动画识别信息80包含生成了虚拟视点动画78的时刻和/或虚拟视点动画78的总播放时间等元数据。

虚拟视点动画生成部28B将所生成的虚拟视点动画78存储于存储设备30中。在存储设备30中例如存储有针对包含了视点路径P1的多个视点路径由虚拟视点动画生成部28B生成的虚拟视点动画78。

作为一例，如图9所示，获取部28C从虚拟视点动画生成部28B获取用于由虚拟视点动画生成部28B生成虚拟视点动画78(在图9所示的例中，存储于存储设备30中的虚拟视点动画78)的多个视点信息74。获取部28C从存储于存储设备30中的虚拟视点动画78获取特定区间虚拟视点动画78A。特定区间虚拟视点动画78A为虚拟视点动画78中视点位置、视线方向及视角被固定的时间带(例如，由视点路径P1中所包含的多个视点位置中与视点静止的时间最长的视点位置相关的视点信息74确定的时间带)的虚拟视点动画。即，虚拟视点动画78中视点位置、视线方向及视角被固定的时间带的虚拟视点动画例如是指由虚拟视点动画生成部28B根据多个视点信息74中包含表示最长的经过时间的经过时间信息74E的视点信息74生成的虚拟视点动画(即，多帧的虚拟视点图像)。

提取部28D确定根据虚拟视点动画78中所包含的时间(在图9所示的例中，视点位置、视线方向及视角被固定的时间带)确定的对象被摄体81。其中，对象被摄体81为本发明的技术所涉及的“第1被摄体”的一例。

作为虚拟视点动画78中所包含的时间的第1例，可以举出拍摄被摄体的时间的长度。并且，作为虚拟视点动画78中所包含的时间的第2例，可以举出虚拟视点动画78的总播放时间中最初和/或最后的时间带(例如，几秒)。并且，作为虚拟视点动画78中所包含的时间的第3例，可以举出时间点。

在本第1实施方式中，提取部28D通过对由获取部28C获取的特定区间虚拟视点动画78A中所包含的所有虚拟视点图像76进行AI方式的被摄体识别处理，将特定区间虚拟视点动画78A中拍摄最长时间的被摄体确定为对象被摄体81。然后，提取部28D从特定区间虚拟视点动画78A提取包含所确定的对象被摄体81的多帧的虚拟视点图像76。

另外，其中，举出进行AI方式的被摄体识别处理的形式例进行说明，但是这仅仅是一例，也可以进行模板匹配方式的被摄体识别处理。并且，也可以设为对虚拟视点动画78中所包含的所有虚拟视点图像76中所包含的被摄体预先赋予确定被摄体的标识符(以下，称为“被摄体标识符”)，提取部28D参考被摄体标识符来确定各虚拟视点图像76中所包含的被摄体。

选择部28E选择根据由提取部28D提取的多帧的虚拟视点图像76中的对象被摄体81的尺寸确定的一帧的虚拟视点图像76。例如，选择部28E从由提取部28D提取的多帧的虚拟视点图像76选择包含最大尺寸的对象被摄体81的一帧的虚拟视点图像76。例如，在由提取部28D进行AI方式的被摄体识别处理的情况下，选择部28E通过参考AI方式的被摄体识别处理中所使用的边界框的尺寸来确定包含最大尺寸的对象被摄体81的虚拟视点图像76。

其中，由提取部28D提取的多帧为本发明的技术所涉及的“在虚拟视点动画中包含摄像区域内的第1被摄体的多帧”的一例。并且，包含最大尺寸的对象被摄体81的一帧的虚拟视点图像76为本发明的技术所涉及的“与第1帧相关的图像”的一例。并且，“最大尺寸”为本发明的技术所涉及的“第1被摄体的尺寸”的一例。

另外，其中，例示了最大尺寸的对象被摄体81，但是这仅仅是一例，也可以为除了最大尺寸以外的指定的尺寸(例如，最大尺寸下一个大的尺寸)的对象被摄体81，也可以为在预先设定的尺寸范围(例如，根据由接收设备50等接收的指示而确定的尺寸范围)内最大尺寸的对象被摄体81，也可以为根据由接收设备50等接收的指示而确定的尺寸的对象被摄体81。

加工部28F将虚拟视点动画78加工成与虚拟视点动画78不同的大小的图像。作为与虚拟视点动画78不同的大小的图像，例如可以举出数据量少于虚拟视点动画78的图像(例如，至少一帧量的图像)、虚拟视点动画78被间隔剔除的图像(例如，逐帧图像)、缩小了虚拟视点动画78中所包含的至少一帧量的虚拟视点图像76的显示尺寸的图像和/或对虚拟视点动画78中所包含的至少一帧量的虚拟视点图像76内的像素进行间隔剔除而获得的图像等。

加工部28F生成与虚拟视点动画78中所包含的所有虚拟视点图像76中的一帧的虚拟视点图像76相关的图像。与一帧的虚拟视点图像76相关的图像例如为表示虚拟视点动画78的内容的图像。其中，与一帧的虚拟视点图像76相关的图像为本发明的技术所涉及的“与第1帧相关的图像”的一例。作为与一帧的虚拟视点图像76相关的图像，例如可以举出一帧的虚拟视点图像76的整体其本身、从一帧的虚拟视点图像76剪切的一部分和/或对一帧的虚拟视点图像76进行加工而获得的图像。

加工部28F根据多个摄像图像64及多个视点信息74来获取与虚拟视点动画78对应的缩略图像82。缩略图像82为本发明的技术所涉及的“代表图像”的一例。即，加工部28F使虚拟视点动画78中所包含的所有虚拟视点图像76中代表性的一帧的虚拟视点图像76缩略图化。例如，加工部28F将由选择部28E选择的虚拟视点图像76加工成缩略图像82。作为将虚拟视点图像76加工成缩略图像82的方法，能够使用将上述虚拟视点动画78加工成与虚拟视点动画78不同的大小的图像的方法。并且，加工部28F将向被缩略图化之前的虚拟视点图像76赋予的元数据76A与缩略图像82建立关联。并且，加工部28F从包含被缩略图化的虚拟视点图像76的虚拟视点动画78获取动画识别信息80。

作为一例，如图10所示，加工部28F将动画识别信息80与使虚拟视点图像76缩略图化而获得的缩略图像82建立关联。

一览画面生成部28G从加工部28F获取与元数据76A及动画识别信息80建立有关联的缩略图像82。一览画面生成部28G根据元数据76A和/或动画识别信息80来生成参考信息86A，并将其与缩略图像82建立对应关联。一览画面生成部28G生成一览画面数据84，所述一览画面数据84表示包含了与参考信息86A建立有对应关联的缩略图像82的一览画面86。一览画面数据84为用于使缩略图像82显示在用户设备12的触摸屏显示器16上的数据。一览画面生成部28G将所生成的一览画面数据84输出至收发装置24，并且存储于存储设备30中。由此，在存储设备30中存储有与动画识别信息80建立有关联的缩略图像82。即，由于动画识别信息80为唯一分配给虚拟视点动画78的标识符，因此在缩略图像82与虚拟视点动画78建立有关联的状态下存储于存储设备30中。

一览画面数据84为本发明的技术所涉及的“数据”及“第1数据”的一例。并且，触摸屏显示器16为本发明的技术所涉及的“显示器”及“第1显示器”的一例。

作为由一览画面生成部28G与缩略图像82建立对应关联的参考信息86A，例如可以举出字符信息。作为字符信息，例如可以举出表示生成了虚拟视点动画78的时刻(例如，由图4所示的摄像条件信息64A确定的时刻)、与缩略图像82中所包含的对象被摄体81相关的信息(例如，对象被摄体81的名称和/或对象被摄体81的所属团队等)、虚拟视点动画78的总播放时间、虚拟视点动画78的标题和/或虚拟视点动画78的制作者的名称等的字符信息。

在存储设备30中存储有一览画面数据84的状态下，若由加工部28F生成缩略图像82且元数据76A及动画识别信息80与所生成的缩略图像82建立关联，则一览画面生成部28G从存储设备30获取一览画面数据84，并更新一览画面数据84。即，一览画面生成部28G从加工部28F获取与元数据76A及动画识别信息80建立有关联的缩略图像82，并生成参考信息86A。一览画面生成部28G将所生成的参考信息86A与缩略图像82建立对应关联。然后，一览画面生成部28G通过将与参考信息86A建立有对应关联的缩略图像82包含在一览画面86上来更新一览画面数据84。一览画面生成部28G将更新后的一览画面数据84输出至收发装置24，并且存储于存储设备30中。

在由更新后的一览画面数据84表示的一览画面86上包含多个缩略图像82。并且，在由更新后的一览画面数据84表示的一览画面86上，参考信息86A与多个缩略图像82的各自建立有对应关联。

收发装置24将从一览画面生成部28G输入的一览画面数据84发送至用户设备12。在用户设备12中，收发装置44接收从图像处理装置10发送的一览画面数据84。处理器52获取由收发装置44接收的一览画面数据84，并使由所获取的一览画面数据84表示的一览画面86显示在触摸屏显示器16上。多个图像并行显示在一览画面86上。在图10所示的例中，多个缩略图像82与参考信息86A一起显示在一览画面86上。即，参考信息86A以在视觉上能够掌握其与缩略图像82的相关性的方式(例如，参考信息86A和缩略图像82以在视觉上能够掌握存在一对一的关系的方式排列的方式)显示在一览画面86上。

另外，其中，举出多个缩略图像82显示在一览画面86上的形式例，但是也可以在一览画面86上仅显示一个缩略图像82。并且，多个缩略图像82不一定必须并行显示，只要为在视觉上能够掌握多个缩略图像82的方式，则可以为任意的显示。

在触摸屏显示器16上显示有一览画面86的状态下，用户14通过经由触摸屏显示器16点击一览画面86内的任一个缩略图像82来选择缩略图像82。若选择了缩略图像82，则根据此，图像处理装置10的处理器28(参考图1及图3)将用于使虚拟视点动画78显示在触摸屏显示器16上的数据输出至用户设备12。

例如，若由用户14经由触摸屏显示器16选择了缩略图像82，则用户设备12的处理器52将与所选择的缩略图像82建立有关联的动画识别信息80经由收发装置44发送至图像处理装置10。在图像处理装置10中，由收发装置24接收动画识别信息80。图像处理装置10的处理器28(参考图1及图3)从存储设备30获取与由收发装置24接收的动画识别信息80对应的虚拟视点动画78，并将所获取的虚拟视点动画78经由收发装置24发送至用户设备12。在用户设备12中，由收发装置44接收从图像处理装置10发送的虚拟视点动画78。用户设备12的处理器52使由收发装置44接收的虚拟视点动画78显示在触摸屏显示器16上。例如，虚拟视点动画78显示在触摸屏显示器16的虚拟视点动画画面68(参考图4)上。

另外，其中，举出虚拟视点动画78显示在触摸屏显示器16上的形式例，但是这仅仅是一例，例如也可以设为代替触摸屏显示器16或与触摸屏显示器16一起在与图像处理装置10直接或间接连接的显示器上显示虚拟视点动画78。此时，与图像处理装置10直接或间接连接的显示器为本发明的技术所涉及的“第2显示器”的一例。

并且，其中，举出通过点击一览画面86内的任一个缩略图像82来选择缩略图像82的形式例进行了说明，但是这仅仅是一例，也可以设为通过经由触摸屏显示器16对缩略图像82进行轻击、轻扫和/或长按等来选择缩略图像82，也可以设为通过对由麦克风48获取的声音进行声音识别处理来选择缩略图像82，也可以设为通过鼠标和/或键盘等的操作来选择缩略图像82。

接着，参考图11并对本第1实施方式所涉及的图像处理装置10的动作进行说明。

另外，在图11中示出由图像处理装置10的处理器28进行的画面生成处理的流程的一例。图11所示的画面生成处理的流程为本发明的技术所涉及的图像处理方法的一例。

在图11所示的画面生成处理中，首先，在步骤ST10中，虚拟视点动画生成部28B从用户设备12获取多个视点信息74(例如，与视点路径P1对应的多个视点信息74)(参考图7)。在执行步骤ST10的处理之后，画面生成处理转移至步骤ST12。

在步骤ST12中，虚拟视点动画生成部28B根据在步骤ST10中所获取的多个视点信息74来选择多个摄像图像64(参考图8)。在执行步骤ST12的处理之后，画面生成处理转移至步骤ST14。

在步骤ST14中，虚拟视点动画生成部28B根据在步骤ST12中所选择的多个摄像图像64来生成虚拟视点动画78，并将所生成的虚拟视点动画78存储于存储设备30中(参考图8)。在执行步骤ST14的处理之后，画面生成处理转移至步骤ST16。

在步骤ST16中，获取部28C根据用于由虚拟视点动画生成部28B生成虚拟视点动画78的多个视点信息74，从存储设备30获取虚拟视点动画78中视点位置、视线方向及视角被固定的时间带的虚拟视点动画作为特定区间虚拟视点动画78A(参考图9)。在执行步骤ST16的处理之后，画面生成处理转移至步骤ST18。

在步骤ST18中，提取部28D通过对特定区间虚拟视点动画78A进行AI方式的被摄体识别处理而从特定区间虚拟视点动画78A提取包含在特定区间虚拟视点动画78A中拍摄最长时间的对象被摄体81的多个虚拟视点图像76(参考图9)。在执行步骤ST18的处理之后，画面生成处理转移至步骤ST20。

在步骤ST20中，选择部28E从在步骤ST18中所提取的多个虚拟视点图像76选择包含最大尺寸的对象被摄体81的虚拟视点图像76(参考图9)。在执行步骤ST20的处理之后，画面生成处理转移至步骤ST22。

在步骤ST22中，加工部28F将在步骤ST20中所选择的虚拟视点图像76加工成缩略图像82(参考图9及图10)。在缩略图像82中，由加工部28F赋予了在步骤ST20中所选择的虚拟视点图像76的元数据76A。在执行步骤ST22的处理之后，画面生成处理转移至步骤ST24。

在步骤ST24中，加工部28F从存储设备30获取与包含和在步骤ST22中所获得的缩略图像82对应的虚拟视点图像76的虚拟视点动画78相关的动画识别信息80(参考图9)，并将所获取的动画识别信息80与缩略图像82建立关联(参考图10)。在执行步骤ST24的处理之后，画面生成处理转移至步骤ST26。

在步骤ST26中，一览画面生成部28G生成一览画面数据84，并将所生成的一览画面数据84输出至存储设备30及收发装置24(参考图10)，所述一览画面数据84表示包含与元数据76A及动画识别信息80建立有关联的缩略图像82的一览画面86。由此，在存储设备30中存储有一览画面数据84，并由收发装置24将一览画面数据84发送至用户设备12。在用户设备12中，由处理器52将由从收发装置24发送的一览画面数据84表示的一览画面86显示在触摸屏显示器16上(参考图10)。在执行步骤ST26的处理之后，画面生成处理转移至步骤ST28。

在步骤ST28中，一览画面生成部28G判定是否满足画面生成处理结束的条件(以下，称为“结束条件”)。作为结束条件的一例，可以举出由触摸屏显示器16等接收设备接收使画面生成处理结束的指示等条件。在步骤ST28中，在不满足结束条件的情况下，判定被否定，画面生成处理转移至步骤ST10。在步骤ST28中，在满足结束条件的情况下，判定被肯定，画面生成处理结束。

如以上所说明，在本第1实施方式所涉及的图像处理装置10中，根据多个摄像图像64及多个视点信息74来获取与根据多个摄像图像64及多个视点信息74生成的虚拟视点动画78对应的缩略图像82。然后，将一览画面数据84作为用于使缩略图像82显示在用户设备12的触摸屏显示器16上的数据发送至用户设备12。在用户设备12中，由一览画面数据84表示的一览画面86显示在触摸屏显示器16上。因此，根据本结构，能够有助于向用户14显示与虚拟视点动画78对应的缩略图像82。

并且，在本第1实施方式所涉及的图像处理装置10中，获取虚拟视点动画78中所包含的特定区间虚拟视点动画78A。然后，获取与特定区间虚拟视点动画78A中所包含的多帧的虚拟视点图像76中的一帧的虚拟视点图像76对应的缩略图像82。然后，将一览画面数据84作为用于使缩略图像82显示在用户设备12的触摸屏显示器16上的数据发送至用户设备12。因此，根据本结构，能够有助于向用户14显示与特定区间虚拟视点动画78A中所包含的多帧的虚拟视点图像76中的一帧的虚拟视点图像76对应的缩略图像82。

并且，在本第1实施方式所涉及的图像处理装置10中，获取与包含根据虚拟视点动画78中所包含的时间确定的对象被摄体81的一帧的虚拟视点图像76对应的缩略图像82。然后，将一览画面数据84作为用于使缩略图像82显示在用户设备12的触摸屏显示器16上的数据发送至用户设备12。因此，根据本结构，能够有助于向用户14显示与包含根据虚拟视点动画78中所包含的时间确定的对象被摄体81的一帧的虚拟视点图像76对应的缩略图像82。

并且，在本第1实施方式所涉及的图像处理装置10中，获取与根据在特定区间虚拟视点动画78A内的对象被摄体81的尺寸确定的一帧的虚拟视点图像76对应的缩略图像82。然后，将一览画面数据84作为用于使缩略图像82显示在用户设备12的触摸屏显示器16上的数据发送至用户设备12。因此，根据本结构，能够有助于向用户14显示与根据对象被摄体81的尺寸确定的一帧的虚拟视点图像76对应的缩略图像82。

并且，在本第1实施方式所涉及的图像处理装置10中，将一览画面数据84作为用于响应于显示在触摸屏显示器16上的缩略图像82的选择而使与所选择的缩略图像82对应的虚拟视点动画78显示在触摸屏显示器16上的数据发送至用户设备12。因此，根据本结构，能够有助于向用户14显示与所选择的缩略图像82对应的虚拟视点动画78。

并且，在本第1实施方式所涉及的图像处理装置10中，在缩略图像82与虚拟视点动画78建立有关联的状态下存储于存储设备30中。因此，根据本结构，与缩略图像82和虚拟视点动画78未建立有关联的情况相比，能够从缩略图像82快速获得虚拟视点动画78。

并且，在本第1实施方式所涉及的图像处理装置10中，将用于使缩略图像82显示在多个图像并行显示的一览画面数据84上的数据作为一览画面数据84发送至用户设备12。因此，根据本结构，能够有助于向用户14一览显示多个图像和缩略图像82。

另外，在上述实施方式中，将视点位置、视线方向及视角被固定的时间带的虚拟视点动画设为特定区间虚拟视点动画78A，但是本发明的技术并不限定于此。例如，也可以将虚拟视点动画78中由用户14等指定的时间带的虚拟视点动画设为特定区间虚拟视点动画78A，也可以将由多个视点信息74中具有表示规定的速度范围内的移动速度的移动速度信息74D的至少一个视点信息74确定的虚拟视点动画设为特定区间虚拟视点动画78A，也可以将由与特定的视点位置、特定的视线方向和/或特定的视角对应的至少一个视点信息74确定的虚拟视点动画设为特定区间虚拟视点动画78A。

[第2实施方式]

在本第2实施方式中，对上述第1实施方式中所说明的构成要件标注相同的符号，并省略说明，并对与上述第1实施方式不同的部分进行说明。

作为一例，如图12所示，与图3所示的处理器28相比，如下点不同：本第2实施方式所涉及的图像处理装置10的处理器28通过执行画面生成处理程序38而作为编辑结果获取部28H进一步动作。

作为一例，如图13所示，视点路径P1通过由触摸屏显示器16接收基于用户14的指示来进行编辑。在图13所示的例中，在视点路径P1的编辑前后，起点P1s及终点P1e是共同的，从起点P1s至终点P1e的路径不同。

作为一例，如图14所示，在用户设备12中，处理器52将与上述第1实施方式中所说明的多个视点信息74、即编辑前的视点路径P1相关的多个视点信息74作为编辑前视点路径信息88经由收发装置44发送至图像处理装置10。并且，处理器52根据编辑后的视点路径P1及注视点GP(参考图6)来生成编辑后视点路径信息90。编辑后视点路径信息90具有与编辑后的视点路径P1相关的多个视点信息74。处理器52响应于视点路径P1的编辑而生成编辑后视点路径信息90，并将所生成的编辑后视点路径信息90经由收发装置44发送至图像处理装置10。

作为一例，如图15所示，虚拟视点动画生成部28B根据编辑后视点路径信息90(参考图14)来选择用于生成虚拟视点图像92的多个摄像图像64(参考图4)。即，虚拟视点动画生成部28B从通过由多个摄像装置36(参考图1及图4)拍摄而获得的多个摄像图像64(参考图4)选择多个摄像图像64(参考图4)，所述多个摄像图像64用于生成表示根据编辑后视点路径信息90观察被摄体时的被摄体的状态的图像即虚拟视点图像92。

虚拟视点动画生成部28B根据编辑后视点路径信息90及多个摄像图像64来生成虚拟视点动画94。即，虚拟视点动画生成部28B根据由编辑后视点路径信息90选择的多个摄像图像64来生成表示从由编辑后视点路径信息90(例如，能够确定图13所示的编辑后的视点路径P1的多个视点信息74)确定的视点观察被摄体时的被摄体的状态的动画即虚拟视点动画94。

例如，虚拟视点动画生成部28B根据图14所示的编辑后的视点路径P1来生成多帧的虚拟视点图像92。即，虚拟视点动画生成部28B针对编辑后的视点路径P1上的每个视点生成虚拟视点图像92。虚拟视点动画生成部28B通过将多帧的虚拟视点图像92按时间顺序排列来生成虚拟视点动画94。以这种方式生成的虚拟视点动画94为用于显示在用户设备12的触摸屏显示器16上的数据。虚拟视点动画94显示在触摸屏显示器16上的时间根据编辑后视点路径信息90中所包含的多个视点信息74(例如，表示图13所示的编辑后的视点路径P1的多个视点信息74)来确定。

虚拟视点动画生成部28B针对虚拟视点动画94中所包含的多帧的虚拟视点图像92的各自赋予元数据92A。元数据92A例如由虚拟视点动画生成部28B根据用于生成虚拟视点图像92的摄像图像64中所包含的摄像条件信息64A(参考图4)来生成。元数据92A包含生成了虚拟视点图像92的时刻及基于摄像条件信息64A的信息。

虚拟视点动画生成部28B在每次生成虚拟视点动画94时，向虚拟视点动画94赋予动画识别信息96。动画识别信息96包含唯一分配给虚拟视点动画94的标识符，并用于确定虚拟视点动画94。并且，动画识别信息96包含生成了虚拟视点动画94的时刻和/或虚拟视点动画94的总播放时间等元数据。

虚拟视点动画生成部28B将所生成的虚拟视点动画94存储于存储设备30中。在存储设备30中例如存储有针对包含了编辑后的视点路径P1的多个视点路径由虚拟视点动画生成部28B生成的虚拟视点动画94。

作为一例，如图16所示，编辑结果获取部28H参考编辑前视点路径信息88及编辑后视点路径信息90来获取编辑了视点路径P1的结果即编辑结果98。作为编辑结果98的第1例，可以举出编辑了视点路径P1的部分(以下，也称为“编辑部分”)。编辑部分例如由编辑后视点路径信息90中所包含的多个视点位置信息74A中与编辑前视点路径信息88中所包含的多个视点位置信息74A不一致的至少一个视点位置信息74A确定。作为编辑结果98的第2例，可以举出对视点路径P1的编辑频度高于规定频度(例如，3次)的部分(以下，也称为“编辑高频部分”)。编辑高频部分例如由编辑后视点路径信息90中所包含的多个视点位置信息74A中编辑频度超过规定频度的至少一个视点位置信息74A确定。作为编辑结果98的第3例，可以举出编辑后的视点路径P1中与编辑前的视点路径P1的差分大的部分(以下，也称为“差分部分”)。差分部分例如由编辑后视点路径信息90中所包含的多个视点位置信息74A中距编辑前视点路径信息88中所包含的多个视点位置信息74A的距离为规定距离(例如，在俯瞰影像72内的几十个像素)以上的至少一个视点位置信息74A确定。

作为一例，如图17所示，获取部28C从编辑结果获取部28H获取编辑结果98。获取部28C从存储于存储设备30中的虚拟视点动画94获取特定区间虚拟视点动画94A。特定区间虚拟视点动画94A为虚拟视点动画94中根据由获取部28C获取的编辑结果98确定的时间带(例如，编辑部分、编辑高频部分或差分部分)的虚拟视点动画。

提取部28D确定根据虚拟视点动画94中所包含的时间(在图17所示的例中，确定编辑结果98确定的时间带)确定的对象被摄体100。其中，对象被摄体100为本发明的技术所涉及的“第1被摄体”的一例。

作为虚拟视点动画94中所包含的时间，例如可以举出拍摄被摄体的时间的长度、虚拟视点动画94的总播放时间中最初和/或最后的时间带(例如，几秒)或时间点。

在本第2实施方式中，提取部28D通过对由获取部28C获取的特定区间虚拟视点动画94A中所包含的所有虚拟视点图像92进行AI方式的被摄体识别处理，将特定区间虚拟视点动画94A中拍摄最长时间的被摄体确定为对象被摄体100。然后，提取部28D从特定区间虚拟视点动画94A提取包含所确定的对象被摄体100的多帧的虚拟视点图像92。

另外，其中，举出进行AI方式的被摄体识别处理的形式例进行说明，但是这仅仅是一例，也可以进行模板匹配方式的被摄体识别处理。并且，也可以设为对虚拟视点动画94中所包含的所有虚拟视点图像92中所包含的被摄体预先赋予确定被摄体的标识符(以下，称为“被摄体标识符”)，提取部28D参考被摄体标识符来确定各虚拟视点图像92中所包含的被摄体。

选择部28E选择根据由提取部28D提取的多帧的虚拟视点图像92中的对象被摄体100的尺寸确定的一帧的虚拟视点图像92。例如，选择部28E从由提取部28D提取的多帧的虚拟视点图像92选择包含最大尺寸的对象被摄体100的一帧的虚拟视点图像92。例如，在由提取部28D进行AI方式的被摄体识别处理的情况下，选择部28E通过参考AI方式的被摄体识别处理中所使用的边界框的尺寸来确定包含最大尺寸的对象被摄体100的虚拟视点图像92。

其中，由提取部28D提取的多帧为本发明的技术所涉及的“在虚拟视点动画中包含摄像区域内的第1被摄体的多帧”的一例。并且，包含最大尺寸的对象被摄体100的一帧的虚拟视点图像92为本发明的技术所涉及的“与第1帧相关的图像”的一例。并且，“最大尺寸”为本发明的技术所涉及的“第1被摄体的尺寸”的一例。

另外，其中，例示了最大尺寸的对象被摄体100，但是这仅仅是一例，也可以为除了最大尺寸以外的指定的尺寸(例如，最大尺寸下一个大的尺寸)的对象被摄体100，也可以为在预先设定的尺寸范围(例如，根据由接收设备50等接收的指示而确定的尺寸范围)内最大尺寸的对象被摄体100，也可以为根据由接收设备50等接收的指示而确定的尺寸的对象被摄体100。

加工部28F将虚拟视点动画94加工成与虚拟视点动画94不同的大小的图像。作为与虚拟视点动画94不同的大小的图像，例如可以举出数据量少于虚拟视点动画94的图像(例如，至少一帧量的图像)、虚拟视点动画94被间隔剔除的图像(例如，逐帧图像)、缩小了虚拟视点动画94中所包含的至少一帧量的虚拟视点图像92的显示尺寸的图像和/或对虚拟视点动画94中所包含的至少一帧量的虚拟视点图像92内的像素进行间隔剔除而获得的图像等。

加工部28F生成与虚拟视点动画94中所包含的所有虚拟视点图像92中的一帧的虚拟视点图像92相关的图像。与一帧的虚拟视点图像92相关的图像例如为表示虚拟视点动画94的内容的图像。其中，与一帧的虚拟视点图像92相关的图像为本发明的技术所涉及的“与第1帧相关的图像”的一例。作为与一帧的虚拟视点图像92相关的图像，例如可以举出一帧的虚拟视点图像92的整体其本身、从一帧的虚拟视点图像92剪切的一部分和/或对一帧的虚拟视点图像92进行加工而获得的图像。

加工部28F根据多个摄像图像64及多个视点信息74来获取与虚拟视点动画94对应的缩略图像102。在本第2实施方式中，加工部28F根据与编辑了多个视点信息74的结果相对应的编辑结果98来获取缩略图像102。缩略图像102为本发明的技术所涉及的“代表图像”的一例。即，加工部28F使虚拟视点动画94中所包含的所有虚拟视点图像92中代表性的一帧的虚拟视点图像92缩略图化。

例如，加工部28F将由选择部28E选择的虚拟视点图像92加工成缩略图像102。作为将虚拟视点图像92加工成缩略图像102的方法，能够使用将上述虚拟视点动画94加工成与虚拟视点动画94不同的大小的图像的方法。并且，加工部28F将向被缩略图化之前的虚拟视点图像92赋予的元数据92A与缩略图像102建立关联。并且，加工部28F从包含被缩略图化的虚拟视点图像92的虚拟视点动画94获取动画识别信息96。

作为一例，如图18所示，加工部28F将动画识别信息96与使虚拟视点图像92缩略图化而获得的缩略图像102建立关联。

一览画面生成部28G从加工部28F获取与元数据92A及动画识别信息96建立有关联的缩略图像102。一览画面生成部28G根据元数据92A和/或动画识别信息96来生成参考信息104A，并将其与缩略图像102建立对应关联。一览画面生成部28G生成一览画面数据106，所述一览画面数据106表示包含了与参考信息104A建立有对应关联的缩略图像102的一览画面104。一览画面数据106为用于使缩略图像102显示在用户设备12的触摸屏显示器16上的数据。一览画面生成部28G将所生成的一览画面数据106输出至收发装置24，并且存储于存储设备30中。由此，在存储设备30中存储有与动画识别信息96建立有关联的缩略图像102。即，由于动画识别信息96为唯一分配给虚拟视点动画94的标识符，因此在缩略图像102与虚拟视点动画94建立有关联的状态下存储于存储设备30中。一览画面数据106为本发明的技术所涉及的“数据”及“第1数据”的一例。

作为由一览画面生成部28G与缩略图像102建立对应关联的参考信息104A，例如可以举出字符信息。作为字符信息，例如可以举出生成了虚拟视点动画94的时刻(例如，由图4所示的摄像条件信息64A确定的时刻)、与缩略图像102中所包含的对象被摄体100相关的信息(例如，对象被摄体100的名称和/或对象被摄体100的所属团队等)、虚拟视点动画94的总播放时间、虚拟视点动画94的标题和/或虚拟视点动画94的制作者的名称等。

在存储设备30中存储有一览画面数据106的状态下，若由加工部28F生成缩略图像102且元数据92A及动画识别信息96与所生成的缩略图像102建立关联，则一览画面生成部28G从存储设备30获取一览画面数据106，并更新一览画面数据106。即，一览画面生成部28G从加工部28F获取与元数据92A及动画识别信息96建立有关联的缩略图像102，并生成参考信息104A。一览画面生成部28G将所生成的参考信息104A与缩略图像102建立对应关联。然后，一览画面生成部28G通过将与参考信息104A建立有对应关联的缩略图像102包含在一览画面104上来更新一览画面数据106。一览画面生成部28G将更新后的一览画面数据106输出至收发装置24，并且存储于存储设备30中。

在由更新后的一览画面数据106表示的一览画面104上包含多个缩略图像102。并且，在由更新后的一览画面数据106表示的一览画面104上，参考信息104A与多个缩略图像102的各自建立有对应关联。

收发装置24将从一览画面生成部28G输入的一览画面数据106发送至用户设备12。在用户设备12中，收发装置44接收从图像处理装置10发送的一览画面数据106。处理器52获取由收发装置44接收的一览画面数据106，并使由所获取的一览画面数据106表示的一览画面104显示在触摸屏显示器16上。多个图像并行显示在一览画面104上。在图18所示的例中，多个缩略图像102与参考信息104A一起显示在一览画面104上。另外，其中，举出多个缩略图像102显示在一览画面104上的形式例，但是也可以在一览画面104上仅显示一个缩略图像102。并且，多个缩略图像102不一定必须并行显示。

在触摸屏显示器16上显示有一览画面104的状态下，用户14通过经由触摸屏显示器16点击一览画面104内的任一个缩略图像102来选择缩略图像102。若选择了缩略图像102，则根据此，图像处理装置10的处理器28(参考图1及图12)将用于使虚拟视点动画94显示在触摸屏显示器16上的数据输出至用户设备12。

例如，若由用户14经由触摸屏显示器16选择了缩略图像102，则用户设备12的处理器52将与所选择的缩略图像102建立有关联的动画识别信息96经由收发装置44发送至图像处理装置10。在图像处理装置10中，由收发装置24接收动画识别信息96。图像处理装置10的处理器28(参考图1及图12)从存储设备30获取与由收发装置24接收的动画识别信息96对应的虚拟视点动画94，并将所获取的虚拟视点动画94经由收发装置24发送至用户设备12。在用户设备12中，由收发装置44接收从图像处理装置10发送的虚拟视点动画94。用户设备12的处理器52使由收发装置44接收的虚拟视点动画94显示在触摸屏显示器16上。例如，虚拟视点动画94显示在触摸屏显示器16的虚拟视点动画画面68(参考图4)上。

另外，其中，举出虚拟视点动画94显示在触摸屏显示器16上的形式例，但是这仅仅是一例，例如也可以设为代替触摸屏显示器16或与触摸屏显示器16一起在与图像处理装置10直接或间接连接的显示器上显示虚拟视点动画94。

并且，其中，举出通过点击一览画面104内的任一个缩略图像102来选择缩略图像102的形式例进行了说明，但是这仅仅是一例，也可以设为通过经由触摸屏显示器16对缩略图像102进行轻击、轻扫和/或长按等来选择缩略图像102，也可以设为通过对由麦克风48获取的声音进行声音识别处理来选择缩略图像102，也可以设为由鼠标和/或键盘等选择缩略图像102。

如以上所说明，在本第2实施方式所涉及的图像处理装置10中，根据随着对视点路径P1进行编辑而获得的编辑结果98来获取缩略图像102。即，从虚拟视点动画94中所包含的多个虚拟视点图像92获取与根据编辑结果98确定的虚拟视点图像92对应的缩略图像102。然后，包含由图像处理装置10获取的缩略图像102的一览画面104显示在用户设备12的触摸屏显示器16上。因此，根据本结构，能够有助于向用户14显示根据编辑结果98获得的缩略图像102。

另外，在上述第2实施方式中，作为编辑结果98的一例，示出了仅编辑了视点路径P1的结果，但是本发明的技术并不限定于此。在编辑结果98中不仅包含对视点路径P1进行编辑的结果，还可以包含对表示多个虚拟视点动画的多个视点路径进行编辑的结果。此时，多个视点信息74具有多个视点路径。即，多个视点路径通过多个视点信息74来限定。然后，处理器28根据对多个视点路径中的至少一个视点路径进行编辑的结果来确定至少一个虚拟视点图像(即，从至少一个虚拟视点动画获得的至少一个虚拟视点图像)。处理器28生成与所确定的至少一个虚拟视点图像对应的至少一个缩略图像，并生成包含所生成的缩略图像的一览画面104。由此，能够有助于向用户14显示与根据对多个视点路径进行编辑的结果获得的至少一个虚拟视点图像对应的至少一个缩略图像。

[第3实施方式]

在本第3实施方式中，对上述第1及第2实施方式中所说明的构成要件标注相同的符号，并省略说明，并对与上述第1及第2实施方式不同的部分进行说明。

作为一例，如图19所示，与图12所示的处理器28相比，如下点不同：本第3实施方式所涉及的图像处理装置10的处理器28通过执行画面生成处理程序38而作为差异程度计算部28I进一步动作。

在本第3实施方式中，为了便于说明，作为一例，如图20所示，以如下为前提进行说明：由用户14经由触摸屏显示器16从多个视点路径指定存在于彼此不同的位置上的第1视点路径108及第2视点路径110作为处理对象的视点路径。

作为一例，如图21所示，在用户设备12中，处理器52根据第1视点路径108(参考图20)及第1注视点(例如，图6所示的注视点(P)来生成第1视点路径信息112。第1视点路径信息112包含上述第1及第2实施方式中所说明的多个视点信息74。并且，处理器52根据第2视点路径110(参考图20)及第2注视点(例如，图6所示的注视点GP)来生成第2视点路径信息114。第2视点路径110包含上述第1及第2实施方式中所说明的多个视点信息74。第1视点路径信息112中所包含的多个视点信息74示出第1视点路径108的特征，第2视点路径信息114中所包含的多个视点信息74示出第2视点路径110的特征。因此，第1视点路径信息112中所包含的多个视点信息74与第2视点路径信息114中所包含的多个视点信息74的内容不同。

作为一例，如图22所示，用户设备12的处理器52将第1视点路径信息112及第2视点路径信息114经由收发装置44发送至图像处理装置10。在图像处理装置10中，收发装置24接收从图像处理装置10发送的第1视点路径信息112及第2视点路径信息114。虚拟视点动画生成部28B及差异程度计算部28I获取由收发装置24接收的第1视点路径信息112及第2视点路径信息114。

作为一例，如图23所示，虚拟视点动画生成部28B根据第1视点路径信息112(参考图21及图22)来选择用于生成虚拟视点图像116的多个摄像图像64(参考图4)。即，虚拟视点动画生成部28B从通过由多个摄像装置36(参考图1及图4)拍摄而获得的多个摄像图像64(参考图4)选择多个摄像图像64(参考图4)，所述多个摄像图像64用于生成表示根据第1视点路径信息112观察被摄体时的被摄体的状态的图像即虚拟视点图像116。

虚拟视点动画生成部28B根据第1视点路径信息112及多个摄像图像64来生成第1虚拟视点动画118。即，虚拟视点动画生成部28B根据由第1视点路径信息112选择的多个摄像图像64来生成表示从由第1视点路径信息112确定的视点观察被摄体时的被摄体的状态的动画即第1虚拟视点动画118。

例如，虚拟视点动画生成部28B根据第1视点路径108(参考图20)来生成多帧的虚拟视点动画116。即，虚拟视点动画生成部28B针对第1视点路径108上的每个视点生成虚拟视点图像116。虚拟视点动画生成部28B通过将多帧的虚拟视点图像116按时间顺序排列来生成第1虚拟视点动画118。以这种方式生成的第1虚拟视点动画118为用于显示在用户设备12的触摸屏显示器16上的数据。第1虚拟视点动画118显示在触摸屏显示器16上的时间根据第1视点路径信息112中所包含的多个视点信息74(参考图21)来确定。

虚拟视点动画生成部28B针对第1虚拟视点动画118中所包含的多帧的虚拟视点图像116的各自赋予第1元数据(省略图示)。针对第1虚拟视点动画118中所包含的多帧的虚拟视点图像116的各自赋予的第1元数据的技术的意义与上述第1实施方式中所说明的元数据76A及上述第2实施方式中所说明的元数据92A相同。

虚拟视点动画生成部28B在每次生成第1虚拟视点动画118时，向第1虚拟视点动画118赋予第1动画识别信息120。第1动画识别信息120包含唯一分配给第1虚拟视点动画118的标识符，并用于确定第1虚拟视点动画118。并且，第1动画识别信息120包含生成了第1虚拟视点动画118的时刻和/或第1虚拟视点动画118的总播放时间等元数据。

虚拟视点动画生成部28B根据第2视点路径信息114(参考图21及图22)来选择用于生成虚拟视点图像122的多个摄像图像64(参考图4)。即，虚拟视点动画生成部28B从通过由多个摄像装置36(参考图1及图4)拍摄而获得的多个摄像图像64(参考图4)选择多个摄像图像64(参考图4)，所述多个摄像图像64用于生成表示根据第2视点路径信息114观察被摄体时的被摄体的状态的图像即虚拟视点图像122。

虚拟视点动画生成部28B根据第2视点路径信息114及多个摄像图像64来生成第2虚拟视点动画124。即，虚拟视点动画生成部28B根据由第2视点路径信息114选择的多个摄像图像64来生成表示从由第2视点路径信息114确定的视点观察被摄体时的被摄体的状态的动画即第2虚拟视点动画124。

例如，虚拟视点动画生成部28B根据第2视点路径110(参考图20)来生成多帧的虚拟视点动画122。即，虚拟视点动画生成部28B针对第2视点路径110上的每个视点生成虚拟视点图像122。虚拟视点动画生成部28B通过将多帧的虚拟视点图像122按时间顺序排列来生成第2虚拟视点动画124。以这种方式生成的第2虚拟视点动画124为用于显示在用户设备12的触摸屏显示器16上的数据。第2虚拟视点动画124显示在触摸屏显示器16上的时间根据第2视点路径信息114中所包含的多个视点信息74(参考图21)来确定。

虚拟视点动画生成部28B针对第2虚拟视点动画124中所包含的多帧的虚拟视点图像122的各自赋予第2元数据(省略图示)。针对第2虚拟视点动画124中所包含的多帧的虚拟视点图像122的各自赋予的第2元数据的技术的意义与上述第1实施方式中所说明的元数据76A及上述第2实施方式中所说明的元数据92A相同。

虚拟视点动画生成部28B在每次生成第2虚拟视点动画124时，向第2虚拟视点动画124赋予第2动画识别信息126。第2动画识别信息126包含唯一分配给第2虚拟视点动画124的标识符，并用于确定第2虚拟视点动画124。并且，第2动画识别信息126包含生成了第2虚拟视点动画124的时刻和/或第2虚拟视点动画124的总播放时间等元数据。

作为一例，如图24所示，虚拟视点动画生成部28B将所生成的第1虚拟视点动画118存储于存储设备30中。并且，虚拟视点动画生成部28B将所生成的第2虚拟视点动画124也存储于存储设备30中。

作为一例，如图25所示，差异程度计算部281计算第1视点路径信息112与第2视点路径信息114之间的差异程度128。差异程度128也可以说是第1视点路径信息112中所包含的多个视点信息74与第2视点路径信息114中所包含的多个视点信息74之间的差异程度。作为差异程度128的一例，可以举出第1视点路径108的分割区域108A与第2视点路径110的分割区域110A的偏移量。差异程度128为本发明的技术所涉及的“差异程度”的一例。

分割区域108A为通过将从第1视点路径108的起点至终点进行N等分而获得的区域。分割区域110A为通过将从第2视点路径110的起点至终点进行N等分而获得的区域。其中，“N”为2以上的自然数，例如根据由接收设备50等接收的指示来确定。“N”可以为固定值，也可以为根据由接收设备50接收的指示和/或各种信息(例如，摄像条件)而变更的可变值。

在本第3实施方式中，差异程度计算部28I计算从第1视点路径108的起点至终点的多个分割区域108A与从第2视点路径110的起点至终点的多个分割区域110A之间的分割区域之间的偏移量作为差异程度128。即，差异程度128为将第1视点路径108的多个分割区域108A与第2视点路径110的多个分割区域110A的相对应的分割区域之间的偏移量从起点至终点与各分割区域108A及各分割区域110A建立对应关联的信息。

作为一例，如图26所示，获取部28C从差异程度计算部28I获取差异程度128。获取部28C从存储于存储设备30中的第1虚拟视点动画118获取第1特定区间虚拟视点动画118A。第1特定区间虚拟视点动画118A为第1虚拟视点动画118中根据由获取部28C获取的差异程度128确定的时间带的虚拟视点动画。其中，由差异程度128确定的时间带例如是指和与由差异程度128表示的多个偏移量中最大的偏移量建立有对应关联的分割区域108A(参考图25)对应的时间带。其中，例示了最大的偏移量，但是也可以为最小的偏移量，也可以为中央值的偏移量，也可以为最频值的偏移量。

提取部28D确定根据第1虚拟视点动画118中所包含的时间(在图26所示的例中，根据差异程度128确定的时间带)确定的对象被摄体130。其中，对象被摄体130为本发明的技术所涉及的“第1被摄体”的一例。

作为第1虚拟视点动画118中所包含的时间，例如可以举出拍摄被摄体的时间的长度、第1虚拟视点动画118的总播放时间中最初和/或最后的时间带(例如，几秒)或时间点。

在本第3实施方式中，提取部28D通过对由获取部28C获取的第1特定区间虚拟视点动画118A中所包含的所有虚拟视点图像116进行AI方式的被摄体识别处理，将第1特定区间虚拟视点动画118A中拍摄最长时间的被摄体确定为对象被摄体130。然后，提取部28D从第1特定区间虚拟视点动画118A提取包含所确定的对象被摄体130的多帧的虚拟视点图像116。

另外，其中，举出进行AI方式的被摄体识别处理的形式例进行说明，但是这仅仅是一例，也可以进行模板匹配方式的被摄体识别处理。并且，也可以设为对第1虚拟视点动画118中所包含的所有虚拟视点图像116中所包含的被摄体预先赋予确定被摄体的标识符(以下，称为“被摄体标识符”)，提取部28D参考被摄体标识符来确定各虚拟视点图像116中所包含的被摄体。

选择部28E选择根据由提取部28D提取的多帧的虚拟视点图像116中的对象被摄体130的尺寸确定的一帧的虚拟视点图像116。例如，选择部28E从由提取部28D提取的多帧的虚拟视点图像116选择包含最大尺寸的对象被摄体130的一帧的虚拟视点图像116。例如，在由提取部28D进行AI方式的被摄体识别处理的情况下，选择部28E通过参考AI方式的被摄体识别处理中所使用的边界框的尺寸来确定包含最大尺寸的对象被摄体130的虚拟视点图像116。

其中，由提取部28D)提取的多帧为本发明的技术所涉及的“在虚拟视点动画中包含摄像区域内的第1被摄体的多帧”的一例。并且，包含最大尺寸的对象被摄体130的一帧的虚拟视点图像116为本发明的技术所涉及的“与第1帧相关的图像”的一例。并且，“最大尺寸”为本发明的技术所涉及的“第1被摄体的尺寸”的一例。

另外，其中，例示了最大尺寸的对象被摄体130，但是这仅仅是一例，也可以为除了最大尺寸以外的指定的尺寸(例如，最大尺寸下一个大的尺寸)的对象被摄体130，也可以为在预先设定的尺寸范围(例如，根据由接收设备50等接收的指示而确定的尺寸范围)内最大尺寸的对象被摄体130，也可以为根据由接收设备50等接收的指示而确定的尺寸的对象被摄体130。

加工部28F将第1虚拟视点动画118加工成与第1虚拟视点动画118不同的大小的图像。作为与第1虚拟视点动画118不同的大小的图像，例如可以举出数据量少于第1虚拟视点动画118的图像(例如，至少一帧量的图像)、第1虚拟视点动画118被间隔剔除的图像(例如，逐帧图像)、缩小了第1虚拟视点动画118中所包含的至少一帧量的虚拟视点图像116的显示尺寸的图像和/或对第1虚拟视点动画118中所包含的至少一帧量的虚拟视点图像116内的像素进行间隔剔除而获得的图像等。

加工部28F生成与第1虚拟视点动画118中所包含的所有虚拟视点图像116中的一帧的虚拟视点图像116相关的图像。与一帧的虚拟视点图像116相关的图像例如为表示第1虚拟视点动画118的内容的图像。其中，与一帧的虚拟视点图像116相关的图像为本发明的技术所涉及的“与第1帧相关的图像”的一例。作为与一帧的虚拟视点图像116相关的图像，例如可以举出一帧的虚拟视点图像116的整体其本身、从一帧的虚拟视点图像116剪切的一部分和/或对一帧的虚拟视点图像116进行加工而获得的图像。

加工部28F根据多个摄像图像64及多个视点信息74来获取与第1虚拟视点动画118对应的缩略图像132。在本第3实施方式中，加工部28F根据多个视点信息74之间(其中，作为一例，第1视点路径信息112与第2视点路径信息114之间)的差异程度128来获取缩略图像132。缩略图像132为本发明的技术所涉及的“代表图像”的一例。即，加工部28F使第1虚拟视点动画118中所包含的所有虚拟视点图像116中代表性的一帧的虚拟视点图像116缩略图化。

例如，加工部28F将由选择部28E选择的虚拟视点图像116加工成缩略图像132。作为将虚拟视点图像116加工成缩略图像132的方法，能够使用将上述第1虚拟视点动画118加工成与第1虚拟视点动画118不同的大小的图像的方法。并且，加工部28F将向被缩略图化之前的虚拟视点图像116赋予的第1元数据(省略图示)与缩略图像132建立关联。并且，加工部28F从包含被缩略图化的虚拟视点图像116的第1虚拟视点动画118获取第1动画识别信息120。

另外，如此，由处理器28对由加工部28F获取的缩略图像132、与缩略图像132建立有关联的第1元数据及由加工部28F获取的第1动画识别信息120进行的处理例如与由处理器28对上述第2实施方式中所说明的缩略图像102、元数据92A及动画识别信息96进行的处理相同(参考图18)。

作为一例，如图27所示，获取部28C从差异程度计算部28I获取差异程度128。获取部28C从存储于存储设备30中的第2虚拟视点动画124获取第2特定区间虚拟视点动画124A。第2特定区间虚拟视点动画124A为第2虚拟视点动画124中根据由获取部28C获取的差异程度128确定的时间带的虚拟视点动画。其中，由差异程度128确定的时间带例如是指和与由差异程度128表示的多个偏移量中最大的偏移量建立有对应关联的分割区域110A(参考图25)对应的时间带。其中，例示了最大的偏移量，但是也可以为最小的偏移量，也可以为中央值的偏移量，也可以为最频值的偏移量。

提取部28D确定根据第2虚拟视点动画124中所包含的时间(在图27所示的例中，根据差异程度128确定的时间带)确定的对象被摄体134。其中，对象被摄体134为本发明的技术所涉及的“第1被摄体”的一例。

作为第2虚拟视点动画124中所包含的时间，例如可以举出拍摄被摄体的时间的长度、第2虚拟视点动画124的总播放时间中最初和/或最后的时间带(例如，几秒)或时间点。

在本第3实施方式中，提取部28D通过对由获取部28C获取的第2特定区间虚拟视点动画124A中所包含的所有虚拟视点图像122进行AI方式的被摄体识别处理，将第2特定区间虚拟视点动画124A中拍摄最长时间的被摄体确定为对象被摄体134。然后，提取部28D从第2特定区间虚拟视点动画124A提取包含所确定的对象被摄体134的多帧的虚拟视点图像122。

另外，其中，举出进行AI方式的被摄体识别处理的形式例进行说明，但是这仅仅是一例，也可以进行模板匹配方式的被摄体识别处理。并且，也可以设为对第2虚拟视点动画124中所包含的所有虚拟视点图像122中所包含的被摄体预先赋予确定被摄体的标识符(以下，称为“被摄体标识符”)，提取部28D参考被摄体标识符来确定各虚拟视点图像122中所包含的被摄体。

选择部28E选择根据由提取部28D提取的多帧的虚拟视点图像122中的对象被摄体134的尺寸确定的一帧的虚拟视点图像122。例如，选择部28E从由提取部28D提取的多帧的虚拟视点图像122选择包含最大尺寸的对象被摄体134的一帧的虚拟视点图像122。例如，在由提取部28D进行AI方式的被摄体识别处理的情况下，选择部28E通过参考AI方式的被摄体识别处理中所使用的边界框的尺寸来确定包含最大尺寸的对象被摄体134的虚拟视点图122。

其中，由提取部28D提取的多帧为本发明的技术所涉及的“在虚拟视点动画中包含摄像区域内的第1被摄体的多帧”的一例。并且，包含最大尺寸的对象被摄体134的一帧的虚拟视点图像122为本发明的技术所涉及的“与第1帧相关的图像”的一例。并且，“最大尺寸”为本发明的技术所涉及的“第1被摄体的尺寸”的一例。

另外，其中，例示了最大尺寸的对象被摄体134，但是这仅仅是一例，也可以为除了最大尺寸以外的指定的尺寸(例如，最大尺寸下一个大的尺寸)的对象被摄体134，也可以为在预先设定的尺寸范围(例如，根据由接收设备50等接收的指示而确定的尺寸范围)内最大尺寸的对象被摄体134，也可以为根据由接收设备50等接收的指示而确定的尺寸的对象被摄体134。

加工部28F将第2虚拟视点动画124加工成与第2虚拟视点动画124不同的大小的图像。作为与第2虚拟视点动画124不同的大小的图像，例如可以举出数据量少于第2虚拟视点动画124的图像(例如，至少一帧量的图像)、第2虚拟视点动画124被间隔剔除的图像(例如，逐帧图像)、缩小了第2虚拟视点动画124中所包含的至少一帧量的虚拟视点图像122的显示尺寸的图像和/或对第2虚拟视点动画124中所包含的至少一帧量的虚拟视点图像122内的像素进行间隔剔除而获得的图像等。

加工部28F生成与第2虚拟视点动画124中所包含的所有虚拟视点图像122中的一帧的虚拟视点图像122相关的图像。与一帧的虚拟视点图像122相关的图像例如为表示第2虚拟视点动画124的内容的图像。其中，与一帧的虚拟视点图像122相关的图像为本发明的技术所涉及的“与第1帧相关的图像”的一例。作为与一帧的虚拟视点图像122相关的图像，例如可以举出一帧的虚拟视点图像122的整体其本身、从一帧的虚拟视点图像122剪切的一部分和/或对一帧的虚拟视点图像122进行加工而获得的图像。

加工部28F根据多个摄像图像64及多个视点信息74来获取与第2虚拟视点动画124对应的缩略图像136。在本第3实施方式中，加工部28F根据多个视点信息74之间(其中，作为一例，第1视点路径信息112与第2视点路径信息114之间)的差异程度128来获取缩略图像136。缩略图像136为本发明的技术所涉及的“代表图像”的一例。即，加工部28F使第2虚拟视点动画124中所包含的所有虚拟视点图像122中代表性的一帧的虚拟视点图像122缩略图化。

例如，加工部28F将由选择部28E选择的虚拟视点图像122加工成缩略图像136。作为将虚拟视点图像122加工成缩略图像136的方法，能够使用将上述第2虚拟视点动画124加工成与第2虚拟视点动画124不同的大小的图像的方法。并且，加工部28F将向被缩略图化之前的虚拟视点图像122赋予的第2元数据(省略图示)与缩略图像136建立关联。并且，加工部28F从包含被缩略图化的虚拟视点图像122的第2虚拟视点动画124获取第2动画识别信息126。

另外，如此，由处理器28对由加工部28F获取的缩略图像136、与缩略图像136建立有关联的第2元数据及由加工部28F获取的第2动画识别信息126进行的处理例如与由处理器28对上述第2实施方式中所说明的缩略图像102、元数据92A及动画识别信息96进行的处理相同(参考图18)。

如以上所说明，在本第3实施方式所涉及的图像处理装置10中，计算差异程度128作为第1视点路径108与第2视点路径110的差异程度(例如，第1视点路径信息112与第2视点路径信息114的差异程度)，并根据所计算的差异程度128来获取缩略图像132。即，从第1虚拟视点动画118中所包含的多个虚拟视点图像116获取与根据差异程度128确定的虚拟视点图像116对应的缩略图像132。并且，在本第3实施方式所涉及的图像处理装置10中，根据差异程度128来获取缩略图像136。即，从第2虚拟视点动画124中所包含的多个虚拟视点图像122获取与根据差异程度128确定的虚拟视点图像122对应的缩略图像136。然后，包含由图像处理装置10获取的缩略图像132及136的一览画面显示在用户设备12的触摸屏显示器16上。因此，根据本结构，能够有助于向用户14显示根据作为第1视点路径108与第2视点路径110的差异程度而计算的差异程度128获得的缩略图像102。

另外，在上述第3实施方式中，举出了计算差异程度128作为第1视点路径108与第2视点路径110的差异程度，并根据所计算的差异程度128来确定被缩略图化的虚拟视点图像的形式例，但是本发明的技术并不限定于此。也可以设为根据和一个视点对应的一个视点信息74与第1视点路径108或第2视点路径110中所包含的多个视点信息74中的至少一个的差异程度来确定被缩略图化的虚拟视点图像。

并且，在上述第3实施方式中，设为计算差异程度128作为第1视点路径108及第2视点路径110这2条视点路径之间的差异程度，但是本发明的技术并不限定于此，也可以设为计算3条以上的视点路径之间的差异程度。此时，只要生成与虚拟视点图像对应的缩略图像即可，所述虚拟视点图像为与3条以上的视点路径中的至少1条视点路径对应的虚拟视点动画中所包含的至少一个。

[第4实施方式]

在本第4实施方式中，对上述第1～第3实施方式中所说明的构成要件标注相同的符号，并省略说明，并对与上述第1～第3实施方式不同的部分进行说明。

作为一例，如图28所示，与图19所示的处理器28相比，如下点不同：本第4实施方式所涉及的图像处理装置10的处理器28通过执行画面生成处理程序38而作为被摄体位置特定部28J及视点位置特定部28K进一步动作。处理器28作为虚拟视点动画生成部28B、获取部28C、加工部28F、被摄体位置特定部28J及视点位置特定部28K而动作，从而根据多个视点路径的位置关系来获取缩略图像。位置关系是指多个视点路径相对于特定被摄体138(参考图30)的位置关系(参考图31)。其中，特定被摄体138为本发明的技术所涉及的“第2被摄体”的一例。

作为一例，如图29所示，用户设备12的处理器52将第1视点路径信息112及第2视点路径信息114经由收发装置44发送至图像处理装置10。在图像处理装置10中，收发装置24接收从收发装置44发送的第1视点路径信息112及第2视点路径信息114。虚拟视点动画生成部28B及视点位置特定部28K获取由收发装置24接收的第1视点路径信息112及第2视点路径信息114。

作为一例，如图30所示，与上述第3实施方式相同地，在存储设备30中存储有第1虚拟视点动画118及第2虚拟视点动画124。被摄体位置特定部28J从存储设备30获取第1虚拟视点动画118。被摄体位置特定部28J通过对第1虚拟视点动画118进行AI方式的被摄体识别处理来识别第1虚拟视点动画118中所包含的特定被摄体138。其中，特定被摄体138例如是指由用户14等预先指定的被摄体。被摄体位置特定部28J获取在包含特定被摄体138的虚拟视点图像116内的特定被摄体138的坐标(以下，也称为“第1图像内坐标”)作为能够确定虚拟视点图像116中所包含的特定被摄体138在虚拟视点图像116内的位置的信息。被摄体位置特定部28J将第1图像内坐标转换成能够确定在俯瞰影像72(参考图4)内对应的位置的坐标(以下，也称为“第1俯瞰影像内坐标”)。

并且，被摄体位置特定部28J从存储设备30获取第2虚拟视点动画124。被摄体位置特定部28J通过对第2虚拟视点动画124进行AI方式的被摄体识别处理来识别第2虚拟视点动画124中所包含的特定被摄体138。被摄体位置特定部28J获取在包含特定被摄体138的虚拟视点图像122内的特定被摄体138的坐标(以下，也称为“第2图像内坐标”)作为能够确定虚拟视点图像122中所包含的特定被摄体138在虚拟视点图像122内的位置的信息。被摄体位置特定部28J将第2图像内坐标转换成能够确定在俯瞰影像72(参考图4)内对应的位置的坐标(以下，也称为“第2俯瞰影像内坐标”)。

作为一例，如图31所示，视点位置特定部28K获取由被摄体位置特定部28J获得的第1俯瞰影像内坐标作为在俯瞰影像72内的特定被摄体138的坐标。视点位置特定部28K根据第1俯瞰影像内坐标及第1视点路径信息112(参考图21)来确定第1视点路径108中所包含的多个视点位置中特定被摄体138看起来最大的视点位置108B。然后，视点位置特定部28K从第1视点路径信息112获取与所确定的视点位置108B对应的视点信息74。

并且，视点位置特定部28K获取由被摄体位置特定部28J获得的第2俯瞰影像内坐标作为在俯瞰影像72内的特定被摄体138的坐标。视点位置特定部28K根据第2俯瞰影像内坐标及第2视点路径信息114(参考图21)来确定第2视点路径110中所包含的多个视点位置中特定被摄体138看起来最大的视点位置110B。然后，视点位置特定部28K从第2视点路径信息114获取与所确定的视点位置110B对应的视点信息74。

由视点位置特定部28K从第1视点路径信息112获取的视点信息74及由视点位置特定部28K从第2视点路径信息114获取的视点信息74为基于视点位置特定部28K的特定结果。在以下，为了便于说明，将由视点位置特定部28K从第1视点路径信息112获取的视点信息74也称为“第1特定结果”，将由视点位置特定部28K从第2视点路径信息114获取的视点信息74也称为“第2特定结果”。

作为一例，如图32所示，获取部28C从视点位置特定部28K获取第1特定结果。获取部28C从存储于存储设备30中的第1虚拟视点动画118获取与第1特定结果对应的虚拟视点图像116作为第1视点位置虚拟视点图像140。第1视点位置虚拟视点图像140为根据与在第1视点路径108(参考图31)上特定被摄体138看起来最大的视点位置108B对应的虚拟视点图像116、即与视点位置108B对应的视点信息74生成的虚拟视点图像116。

加工部28F使由获取部28C获取的第1视点位置虚拟视点图像140缩略图化。即，加工部28F将第1视点位置虚拟视点图像140加工成缩略图像142。并且，加工部28F将向被缩略图化之前的第1视点位置虚拟视点图像140赋予的第1元数据(省略图示)与缩略图像142建立关联。并且，加工部28F从包含被缩略图化的第1视点位置虚拟视点图像140的第1虚拟视点动画118获取第1动画识别信息120。

另外，如此，由处理器28对由加工部28F获取的缩略图像142、与缩略图像142建立有关联的第1元数据及由加工部28F获取的第1动画识别信息120进行的处理例如与由处理器28对上述第2实施方式中所说明的缩略图像102、元数据92A及动画识别信息96进行的处理相同(参考图18)。

作为一例，如图33所示，获取部28C从视点位置特定部28K获取第2特定结果。获取部28C从存储于存储设备30中的第2虚拟视点动画124获取与第2特定结果对应的虚拟视点图像122作为第2视点位置虚拟视点图像144。第2视点位置虚拟视点图像144为根据与在第2视点路径110(参考图31)上特定被摄体138看起来最大的视点位置110B对应的虚拟视点图像122、即与视点位置110B对应的视点信息74生成的虚拟视点图像116。

加工部28F使由获取部28C获取的第2视点位置虚拟视点图像144缩略图化。即，加工部28F将第2视点位置虚拟视点图像144加工成缩略图像146。并且，加工部28F将向被缩略图化之前的第2视点位置虚拟视点图像144赋予的第2元数据(省略图示)与缩略图像146建立关联。并且，加工部28F从包含被缩略图化的第2视点位置虚拟视点图像144的第2虚拟视点动画124获取第2动画识别信息126。

另外，如此，由处理器28对由加工部28F获取的缩略图像146、与缩略图像146建立有关联的第2元数据及由加工部28F获取的第2动画识别信息126进行的处理例如与由处理器28对上述第2实施方式中所说明的缩略图像102、元数据92A及动画识别信息96进行的处理相同(参考图18)。

如以上所说明，在本第4实施方式所涉及的图像处理装置10中，根据第1视点路径108与第2视点路径110的位置关系来获取缩略图像142及146。例如，可以获得第1虚拟视点动画118中所包含的所有虚拟视点图像116中与在第1视点路径108上特定被摄体138看起来最大的视点位置108B对应的第1视点位置虚拟视点图像140的缩略图像142。并且，可以获得第2虚拟视点动画124中所包含的所有虚拟视点图像122中与在第2视点路径110上特定被摄体138看起来最大的视点位置110B对应的第2视点位置虚拟视点图像144的缩略图像146。然后，包含由图像处理装置10获取的缩略图像142及146的一览画面显示在用户设备12的触摸屏显示器16上。因此，根据本结构，能够有助于向用户14显示根据第1视点路径108与第2视点路径110的位置关系获得的缩略图像142及146。

并且，在本第4实施方式所涉及的图像处理装置10中，根据第1视点路径108和第2视点路径110相对于特定被摄体138的位置关系来获取缩略图像142及146。因此，根据本结构，能够有助于向用户14显示根据第1视点路径108和第2视点路径110相对于特定被摄体138的位置关系获得的缩略图像142及146。

另外，在上述第4实施方式中，例示了从第1视点路径108上特定被摄体138看起来最大的视点位置108B和从第2视点路径110上特定被摄体138看起来最大的视点位置110B，但是本发明的技术并不限定于此，例如也可以应用从第1视点路径108上在由用户14等预先设定的尺寸范围内特定被摄体138看起来最大的视点位置和从第2视点路径110上在由用户14等预先设定的尺寸范围内特定被摄体138看起来最大的视点位置。

并且，在上述第4实施方式中，例示了第1视点路径108及第2视点路径110这2条视点路径，但是本发明的技术并不限定于此，也可以设为根据3条以上的视点路径的位置关系来确定被缩略图化的虚拟视点图像。

[第5实施方式]

在本第5实施方式中，对上述第1～第4实施方式中所说明的构成要件标注相同的符号，并省略说明，并对与上述第1～第4实施方式不同的部分进行说明。

作为一例，如图34所示，与图28所示的处理器28相比，如下点不同：本第5实施方式所涉及的图像处理装置10的处理器28通过执行画面生成处理程序38而作为检索条件赋予部28L进一步动作。

作为一例，如图35所示，在存储设备30中存储有多个虚拟视点动画78。检索条件赋予部28L向获取部28C赋予检索条件148。检索条件148是指从多个虚拟视点动画78检索包含被缩略图化的虚拟视点图像76的虚拟视点动画的条件。作为检索条件148的一例，可以举出元数据76A中所包含的各种信息(例如，生成了虚拟视点图像76的时刻等)和/或动画识别信息80等。检索条件148根据由接收设备50等接收的指示和/或各种条件(例如，摄像条件等)来确定。最初确定的检索条件148可以被固定，也可以根据由接收设备50等接收的指示和/或各种条件(例如，摄像条件等)而变更。

获取部28C从存储于存储设备30中的多个虚拟视点动画78检索符合由检索条件赋予部28L赋予的检索条件148的虚拟视点动画78即检索条件符合虚拟视点动画150。其中，“符合”的含义除了与检索条件148的完全一致以外，也包含在允许误差范围内的一致的含义。在本第5实施方式所涉及的图像处理装置10中，对由获取部28C检索而获得的检索条件符合虚拟视点动画150进行上述第1～第4实施方式中所说明的基于处理器28的处理。

如此，在本第5实施方式所涉及的图像处理装置10中，从多个虚拟视点动画78检索符合所提供的检索条件148的检索条件符合虚拟视点动画150，并根据检索而获得的检索条件符合虚拟视点动画150来获取上述第1～第5实施方式中所说明的缩略图像。因此，根据本结构，能够有助于向用户14显示根据符合所提供的检索条件的虚拟视点动画78获得的缩略图像。

作为本第5实施方式的变形例，例如在通过任一种方法生成且分别与动画建立有关联的多个缩略图像一览显示在显示器上的情况下，若由用户14输入检索条件148，则与检索条件符合虚拟视点动画150建立有关联的缩略图像可以根据所输入的检索条件而变更。例如，在由用户14输入了特定人物(例如，特定人物的名称)作为检索条件的情况下，与显示有作为检索条件输入的特定人物的检索条件符合虚拟视点动画150建立有关联的缩略图像被变更为特定人物的缩略图像并被显示。此时，例如将在检索条件符合虚拟视点动画150中特定人物显示最大的帧设为变更后的缩略图像。由此，用户14能够一览确认作为检索条件输入的特定人物在各个动画中如何显示的。

[第6实施方式]

在本第6实施方式中，对上述第1～第5实施方式中所说明的构成要件标注相同的符号，并省略说明，并对与上述第1～第5实施方式不同的部分进行说明。

作为一例，如图36所示，与图34所示的处理器28相比，如下点不同：本第6实施方式所涉及的图像处理装置10的处理器28通过执行画面生成处理程序38而作为状况识别部28M进一步动作。

作为一例，如图37所示，状况识别部28M通过对存储于存储设备30中的虚拟视点动画78中所包含的多个虚拟视点图像76(例如，在指定的时间带中所包含的多个虚拟视点图像76和/或虚拟视点动画78中所包含的所有虚拟视点图像76等)进行AI方式的被摄体识别处理来确定与特定状况相关的虚拟视点图像76。其中，作为特定状况，例如可以举出每单位面积存在规定人数以上的人物被摄体的状况、在足球场内的罚球区域内存在足球和多个人物被摄体的状况、多个人物被摄体包围保持着球的人物被摄体的状况和/或足球与守门员的指尖接触的状况等。另外，在足球场内存在的人物被摄体为本发明的技术所涉及的“第3被摄体”的一例，特定状况为本发明的技术所涉及的“第3被摄体的状况”的一例。

获取部28C从虚拟视点动画78获取由状况识别部28M确定的虚拟视点图像76作为特定状况虚拟视点图像152。在本第6实施方式所涉及的图像处理装置10中，对由获取部28C获取的特定状况虚拟视点图像152进行上述第1～第5实施方式中所说明的基于处理器28的处理。

如此，在本第6实施方式所涉及的图像处理装置10中，使根据特定状况确定的虚拟视点图像76缩略图化。即，由获取部28C获取由状况识别部28M确定的特定状况虚拟视点图像152，并生成与特定状况虚拟视点图像152对应的缩略图像。因此，根据本结构，能够向用户14显示根据特定状况确定的缩略图像。

[第7实施方式]

在本第7实施方式中，对上述第1～第6实施方式中所说明的构成要件标注相同的符号，并省略说明，并对与上述第1～第6实施方式不同的部分进行说明。

作为一例，如图38所示，与图36所示的处理器28相比，如下点不同：本第7实施方式所涉及的图像处理装置10的处理器28通过执行画面生成处理程序38而作为人物属性被摄体识别部28N进一步动作。

作为一例，如图39所示，人物属性被摄体识别部28N通过对存储于存储设备30中的虚拟视点动画78中所包含的多个虚拟视点图像76(例如，在指定的时间带中所包含的多个虚拟视点图像76和/或虚拟视点动画78中所包含的所有虚拟视点图像76等)进行AI方式的被摄体识别处理来确定与特定人物的属性相关的虚拟视点图像76。其中，特定人物例如是指观看虚拟视点动画78的人物和/或与虚拟视点动画78的制作有关的人物等与虚拟视点动画78有关的人物。作为属性，例如可以举出性别、年龄、地址、职业、种族和/或收费状况等。

人物属性被摄体识别部28N通过根据特定人物的每个属性进行被摄体识别处理来确定与特定人物的属性相关的虚拟视点图像76。此时，例如，首先，人物属性被摄体识别部28N从输入特定人物的种类及属性且输出能够确定虚拟视点动画78中所包含的被摄体的被摄体特定信息的导出表(省略图示)导出与从外部(例如，用户设备12等)提供的特定人物的种类及属性对应的被摄体特定信息。然后，人物属性被摄体识别部28N通过对虚拟视点动画78进行被摄体识别处理来确定包含由从导出表导出的被摄体特定信息确定的被摄体的虚拟视点图像76。

获取部28C从虚拟视点动画78获取由人物属性被摄体识别部28N确定的虚拟视点图像76作为人物属性虚拟视点图像154。在本第7实施方式所涉及的图像处理装置10中，对由获取部28C获取的人物属性虚拟视点图像154进行上述第1～第6实施方式中所说明的基于处理器28的处理。

如此，在本第7实施方式所涉及的图像处理装置10中，使根据与虚拟视点动画78有关的人物的属性确定的虚拟视点图像76缩略图化。即，由获取部28C获取由人物属性被摄体识别部28N确定的人物属性虚拟视点图像154，并生成与人物属性虚拟视点图像154对应的缩略图像。因此，根据本结构，能够向用户14显示根据与虚拟视点动画78有关的人物的属性确定的缩略图像。

另外，在上述各实施方式中，举出视点彼此不同的多个视点信息74的各自包含视点位置信息74A、视线方向信息74B、视角信息74C、移动速度信息74D及经过时间信息74E的形式例进行了说明，但是本发明的技术并不限定于此，视点彼此不同的多个视点信息74也可以包含与彼此不同的时刻相关的信息。例如，如图40所示，也可以设为第1视点路径信息112中所包含的多个视点信息74具有与彼此不同的时刻相关的信息即时刻信息74F，第2视点路径信息114中所包含的多个视点信息74也具有与彼此不同的时刻相关的信息即时刻信息74F。由此，能够有助于向用户14显示根据彼此不同的视点及彼此不同的时刻获得的图像作为与虚拟视点动画78对应的缩略图像。

并且，在上述各实施方式中，作为缩略图像，例示了一帧的虚拟视点图像被缩略图化的静止图像，但是本发明的技术并不限定于此，也可以应用通过使多帧的虚拟视点图像缩略图化而获得的动态图像。此时，也可以设为以上述各实施方式中所说明的要领，根据通过使从虚拟视点动画作为被缩略图化的虚拟视点图像确定的基准虚拟视点图像和相对于基准虚拟视点图像在时间上之前和/或之后的至少一帧的虚拟视点图像缩略图化而获得的多个缩略图像来生成动态图像。如此，也可以设为被缩略图化的多个基准虚拟视点图像一览显示在显示器上，在由用户14例如通过鼠标操作使光标移动至任一个基准虚拟视点图像上的情况下，与光标移动到的目的地的基准虚拟视点图像对应的动态图像被播放。

另外，根据多个摄像图像及多个视点信息来获取代表图像的方法并不限于上述方法。只要使用多个摄像图像64及多个视点信息74来获取代表图像，则可以通过任意的方法来确定代表图像。并且，如上所述，代表图像例如为显示在一览画面上的图像。

并且，在上述各实施方式中，举出由图像处理装置10的计算机22执行画面生成处理的形式例进行了说明，但是本发明的技术并不限定于此，也可以设为由用户设备12的计算机40执行画面生成处理，也可以设为由图像处理装置10的计算机22和用户设备12的计算机40进行分散处理。

并且，在上述各实施方式中，例示计算机22，但是本发明的技术并不限定于此。例如，可以应用包含ASIC、FPGA和/或PLD的设备来代替计算机22。并且，可以使用硬件结构及软件结构的组合来代替计算机22。对用户设备12的计算机40也相同。

并且，在上述例中，在存储设备30中存储有画面生成处理程序38，但是本发明的技术并不限定于此，作为一例，如图41所示，也可以在非临时性存储介质即SSD或USB存储器等任意便携式存储介质200中存储画面生成处理程序38。此时，将存储于存储介质200中的画面生成处理程序38安装于计算机22中，处理器28根据画面生成处理程序38执行画面生成处理。

并且，可以设为在经由通信网(省略图示)与计算机22连接的其他计算机或服务器装置等存储器中预先存储画面生成处理程序38，并根据图像处理装置10的要求将画面生成处理程序38下载到图像处理装置10中。此时，由计算机22的处理器28根据所下载的画面生成处理程序38执行画面生成处理。

并且，在上述例中，例示处理器28，但是也可以设为代替处理器28或与处理器28一起使用其他至少一个CPU、至少一个GPU和/或至少一个TPU。

作为执行画面生成处理的硬件资源，能够使用如下所示的各种处理器。作为处理器，例如，如上所述，可以举出作为根据软件、即程序执行画面生成处理的硬件资源而发挥作用的通用的处理器即CPU。并且，作为其他处理器，例如可以举出FPGA、PLD或ASIC等作为具有为了执行专门的处理而专门设计的电路结构的处理器的专用电路。在每个处理器中均内置或连接有存储器，每个处理器均通过使用存储器来执行画面生成处理。

执行画面生成处理的硬件资源可以由这些各种处理器中的一个构成，也可以由相同种类或不同种类的两个以上的处理器的组合(例如，多个FPGA的组合或CPU与FPGA的组合)构成。并且，执行画面生成处理的硬件资源可以为一个处理器。

作为由一个处理器构成的例，第1有如下方式：如以客户端及服务器等计算机为代表，由一个以上的CPU和软件的组合构成一个处理器，并由该处理器作为执行画面生成处理的硬件资源而发挥作用。第2有如下方式：如以SoC等为代表，使用由一个IC芯片实现包含执行画面生成处理的多个硬件资源的系统整体的功能的处理器。如此，使用上述各种处理器的一个以上作为硬件资源来实现画面生成处理。

而且，作为这些各种处理器的硬件结构，更具体而言，能够使用组合半导体元件等电路元件而成的电路。

并且，上述画面生成处理仅仅是一例。因此，在不脱离主旨的范围内，可以删除不需要的步骤或者追加新的步骤或者替换处理顺序，这是不言而喻的。

以上所示的记载内容及图示内容为对本发明的技术所涉及的部分的详细说明，并且仅为本发明的技术的一例。例如，与上述结构、功能、作用及效果相关的说明为与本发明的技术所涉及的部分的结构、功能、作用及效果的一例相关的说明。因此，在不脱离本发明的技术的主旨的范围内，对以上所示的记载内容及图示内容，可以删除不需要的部分或者追加新的要素或者替换，这是不言而喻的。并且，为了避免复杂化而容易理解本发明的技术所涉及的部分，在以上所示的记载内容及图示内容中，在能够实施本发明的技术的基础上省略与不需要特别说明的技术常识等相关的说明。

在本说明书中，“A和/或B”与“A及B中的至少一个”的含义相同。即，“A和/或B”为如下含义：可以仅为A，也可以仅为B，也可以为A及B的组合等。并且，在本说明书中，即使在用“和/或”结合表示三个以上的事项的情况下，也应用与“A和/或B”相同的想法。

本说明书中所记载的所有文献、日本专利申请及技术标准以与具体地且单独地记载作为参考被编入的每个文献、日本专利申请及技术标准的情况相同的方式作为参考被编入本说明书中。

Claims

1.一种图像处理装置，其具备：

处理器；以及

存储器，与所述处理器连接或内置于所述处理器，

所述处理器进行如下处理：

根据通过拍摄摄像区域所获得的多个摄像图像及多个视点信息来获取与根据所述多个摄像图像和所述多个视点信息生成的虚拟视点动画对应的代表图像；以及

输出用于使所述代表图像以与所述虚拟视点动画不同的大小显示在显示器上的数据。

2.根据权利要求1所述的图像处理装置，其中，

所述代表图像为在所述虚拟视点动画中与包含所述摄像区域内的第1被摄体的多帧中的第1帧相关的图像。

3.根据权利要求2所述的图像处理装置，其中，

所述第1被摄体为根据所述虚拟视点动画中所包含的时间确定的被摄体。

4.根据权利要求2或3所述的图像处理装置，其中，

所述第1帧为根据在所述虚拟视点动画内的所述第1被摄体的尺寸确定的帧。

5.根据权利要求1至4中任一项所述的图像处理装置，其中，

所述处理器根据所述多个视点信息的编辑结果来获取所述代表图像。

6.根据权利要求5所述的图像处理装置，其中，

所述多个视点信息具有多个视点路径，

所述编辑结果包含对所述多个视点路径进行的编辑的结果。

7.根据权利要求1至6中任一项所述的图像处理装置，其中，

所述处理器根据所述多个视点信息之间的差异程度来获取所述代表图像。

8.根据权利要求7所述的图像处理装置，其中，

所述多个视点信息具有多个视点路径，

所述差异程度为所述多个视点路径之间的差异程度。

9.根据权利要求1至8中任一项所述的图像处理装置，其中，

所述多个视点信息具有多个视点路径，

所述处理器根据所述多个视点路径的位置关系来获取所述代表图像。

10.根据权利要求9所述的图像处理装置，其中，

所述位置关系为所述多个视点路径相对于所述摄像区域内的第2被摄体的位置关系。

11.根据权利要求1至10中任一项所述的图像处理装置，其中，

所述处理器进行如下处理：

从多个所述虚拟视点动画中检索符合所提供的检索条件的检索条件符合虚拟视点动画；以及

根据所述检索条件符合虚拟视点动画来获取所述代表图像。

12.根据权利要求1至11中任一项所述的图像处理装置，其中，

所述代表图像为根据所述摄像区域内的第3被摄体的状况而确定的图像。

13.根据权利要求1至12中任一项所述的图像处理装置，其中，

所述代表图像为根据与所述虚拟视点动画有关的人物的属性而确定的图像。

14.根据权利要求1至13中任一项所述的图像处理装置，其中，

所述代表图像为表示所述虚拟视点动画的内容的图像。

15.根据权利要求1至14中任一项所述的图像处理装置，其中，

所述多个视点信息包含视点不同的第1视点信息及第2视点信息，

所述第1视点信息及所述第2视点信息具有与不同的时刻相关的信息。

16.根据权利要求1至15中任一项所述的图像处理装置，其中，

所述处理器进行如下处理：

输出用于使所述代表图像显示在第1显示器上的第1数据；以及

输出用于响应于显示在所述第1显示器上的所述代表图像的选择而使与所述代表图像对应的所述虚拟视点动画显示在所述第1显示器及第2显示器中的至少一个上的第2数据。

17.根据权利要求1至16中任一项所述的图像处理装置，其中，

所述处理器在将所述代表图像与所述虚拟视点动画建立关联的状态下存储于所述存储器中。

18.一种图像处理装置，其具备：

处理器；以及

存储器，与所述处理器连接或内置于所述处理器，

所述处理器进行如下处理：

输出用于使所述代表图像显示在显示多个图像的画面上的数据。

19.一种图像处理方法，其包括如下动作：

20.一种程序，其用于使计算机执行处理，所述处理包括如下动作：