CN116830563A

CN116830563A - 信息处理装置、信息处理方法和系统

Info

Publication number: CN116830563A
Application number: CN202280015285.9A
Authority: CN
Inventors: 木村青司
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-03-31
Filing date: 2022-01-13
Publication date: 2023-09-29
Also published as: EP4307238A4; EP4307238A1; WO2022209130A1; US20240163414A1; JPWO2022209130A1

Abstract

[问题]提供了能够通过管理被摄体的成像和被摄体周围的图像的显示两者来提高娱乐价值的信息处理装置、信息处理方法和系统。[解决方案]该信息处理装置包括控制单元，该控制单元执行通过用于获取被摄体的三维信息的多个成像单元进行成像的控制，以及在位于被摄体周围的一个或更多个显示区域中显示从外部获取的图像的显示控制。控制单元执行将成像的定时和在一个或更多个显示区域上显示从外部获取的图像的定时设置为彼此不同的控制。

Description

信息处理装置、信息处理方法和系统

技术领域

本公开内容涉及信息处理装置、信息处理方法和系统。

背景技术

传统上，使用绿色屏幕或蓝色屏幕来使得更容易从捕获图像中提取人物区域(被摄体的轮廓图像)。关于从捕获图像中提取被摄体的区域，例如，下面描述的专利文献1公开了用于通过使用从设置在围绕被摄体的位置处的N个RGB摄像装置获取的N个RGB图像、以及从类似地设置在围绕被摄体的位置处的M个活动传感器获取的并且表示到被摄体的距离的M条活动深度信息来生成被摄体的三维模型的技术。

引文列表

专利文献

[专利文献1]

PCT专利公布第WO2019/107180号

发明内容

技术问题

然而，虽然使用绿色屏幕等可以使得更容易提取被摄体的区域，但是一直难以将除了绿色屏幕等之外的图像呈现为在被摄体周围。

鉴于此，本公开内容提出了可以通过进行对被摄体的图像捕获和对被摄体周围的图像的显示两者来给予更高娱乐性体验的信息处理装置、信息处理方法和系统。

问题的解决方案

本公开内容提出了一种信息处理装置，该信息处理装置包括控制部，该控制部执行利用用于获取关于被摄体的三维信息的多个图像捕获部进行图像捕获的控制，以及执行在位于被摄体周围的一个或更多个显示区域中显示从外部获取的图像的显示控制，其中，控制部执行控制使得执行图像捕获的定时和在显示区域中显示从外部获取的图像的定时彼此不同。

本公开内容提出了一种由处理器执行的信息处理方法，该信息处理方法包括：执行利用用于获取关于被摄体的三维信息的多个图像捕获部进行图像捕获的控制，以及执行在位于被摄体周围的一个或更多个显示区域中显示从外部获取的图像的显示控制；以及执行控制使得执行图像捕获的定时和在显示区域中显示从外部获取的图像时的定时彼此不同。

本公开内容提出了一种系统，该系统包括：多个图像捕获设备，其被布置在被摄体周围以获取关于被摄体的三维信息；一个或更多个显示区域，其被布置在被摄体周围；以及信息处理装置，其包括控制部，该控制部执行利用多个图像捕获设备进行图像捕获的控制，以及执行在一个或更多个显示区域中显示从外部获取的图像的显示控制，其中，控制部执行控制使得执行图像捕获的定时和在显示区域中显示从外部获取的图像的定时彼此不同。

附图说明

[图1]

图1是用于说明根据本公开内容的实施方式的信息处理系统的概述的图。

[图2]

图2是用于说明根据本实施方式的工作室中的显示区域(显示器)和图像捕获部(摄像装置)的布置的图，在该工作室中获取用于生成表演者的3D模型的信息。

[图3]

图3是用于说明根据本实施方式的工作室中的显示区域(屏幕)和图像捕获部(摄像装置)的布置的图，在该工作室中获取用于生成表演者的3D模型的信息。

[图4]

图4是主要描绘根据本实施方式的表演者信息输入/输出系统的显示处理单元的具体配置示例的框图。

[图5]

图5是描绘根据本实施方式的亮度/颜色校正的强调程度与无显示时段的长度之间的关系的图。

[图6]

图6是描绘根据本实施方式的显示ON/OFF和图像捕获ON/OFF的定时的控制的示例的图。

[图7]

图7是主要描绘根据本实施方式的表演者信息输入/输出系统的视频获取单元的具体配置示例的框图。

[图8]

图8是主要描绘根据本实施方式的表演者信息输入/输出系统的表演者信息生成单元的具体配置示例的框图。

[图9]

图9是描绘根据本实施方式的2D表演者视频上的表演者的注视表达处理的示例的图。

[图10]

图10是用于说明根据本实施方式的观众侧音乐会场地与表演者侧工作室之间的一致性的图。

[图11]

图11是用于说明根据本实施方式的在表演者选择特定音乐会场地的情况下表演者的注视表达的具体示例的图。

[图12]

图12是用于说明根据本实施方式的在表演者选择特定音乐会场地的情况下表演者的注视表达的另一具体示例的图。

[图13]

图13是用于说明根据本实施方式的在表演者指定了特定观众化身的情况下表演者的注视表达的示例的图。

[图14]

图14是描绘根据本实施方式的表演者信息输入/输出系统中的显示和图像捕获的操作处理的过程的示例的流程图。

[图15]

图15是描绘根据本实施方式的第一修改示例的信息处理系统的配置示例的图。

[图16]

图16是描绘根据本实施方式的第一修改示例的显示ON/OFF和图像捕获ON/OFF的定时的控制的示例的图。

[图17]

图17是用于说明根据本实施方式的第一修改示例的在音乐会场地呈现虚拟2D视频的示例的图。

[图18]

图18是描绘根据本实施方式的第二修改示例的信息处理系统的配置示例的图。

[图19]

图19是描绘根据本实施方式的第二修改示例的显示ON/OFF、图像捕获ON/OFF和照明ON/OFF的定时的控制的示例的图。

[图20]

图20是用于说明根据本实施方式的第二修改示例的虚拟2D视频照明效果渲染处理和表演者视频照明效果渲染处理的图。

[图21]

图21是描绘根据本公开内容的实施方式的信息处理装置的硬件配置示例的框图，该信息处理装置实现观众信息输出系统、表演者信息输入/输出系统或表演者视频显示系统。

具体实施方式

在下文中，将参照附图详细说明本公开内容的优选实施方式。注意，在本说明书和附图中，具有基本相同的功能配置的构成元件被赋予相同的附图标记，并且因此省略了重复说明。

另外，按以下顺序给出说明。

1.根据本公开内容的实施方式的信息处理系统的概述

2.配置示例

2-1.观众信息输出系统1

2-2.表演者信息输入/输出系统2

2-3.表演者视频显示系统3

3.操作处理

4.修改示例

4-1.第一修改示例

4-2.第二修改示例

5.硬件配置

6.补充说明

<<1.根据本公开内容的实施方式的信息处理系统的概述>>

图1是用于说明根据本公开内容的实施方式的信息处理系统的概述的图。如图1所描绘的，根据本实施方式的信息处理系统包括观众信息输出系统1、表演者信息输入/输出系统2和表演者视频显示系统3。

在本实施方式中，以其中将在工作室中捕获的表演者的视频实时地提供给远程位置处的观众的音乐会(也称为远程音乐会)作为示例进行说明。表演者是进行表演的人。另外，表演者是被摄体的示例。远程位置是指与表演者所在的位置不同的位置。在工作室中捕获的表演者的视频由表演者信息输入/输出系统2获取，经由网络42传送至表演者视频显示系统3，并且由表演者视频显示系统3呈现给观众。

例如，能够想到的观众的示例包括：身处诸如体育场、竞技场或大厅的容量较大的音乐会场地的观众成员(第一观众示例)；通过使用电信系统观看和收听分发到他们自己的显示终端(电视装置或PC(个人计算机)、智能电话、平板终端、投影仪(投影装置)等)的表演者视频的观众成员(第二观众示例)；以及作为化身参与在虚拟空间中举行的音乐会的观众成员(第三观众示例)。注意，虚拟空间包括VR(虚拟现实)空间。以上说明的观众示例是示例，并且本实施方式不限于第一观众示例至第三观众示例。

另外，在本实施方式中，观众的视频由观众信息输出系统1获取，经由网络41传送至表演者信息输入/输出系统2，并且由表演者信息输入/输出系统2提供给表演者。因此，表演者可以在观看观众的情况时在远程音乐会上表演。

这里，在表演者信息输入/输出系统2中，例如，通过使用这样的技术(例如，体积捕获技术)获取表演者信息：该技术用于基于用被布置成包围被摄体的几十个摄像装置从各种方向同时捕获的几十个图像来生成被摄体的3D模型，并且以高图像质量生成从某个方向看到的被摄体的3D视频。由于被摄体的3D视频是以这样的技术从被摄体的3D模型生成的，因此例如可以生成实际上不存在的摄像装置的视点(虚拟视点)的视频，并且从分发者侧或观众侧进行更自由的视点操作成为可能。尽管在本实施方式中，将表演者用作被摄体的示例，但是本公开内容不限于此，并且被摄体也不限于人。被摄体的示例广泛包括图像捕获对象，例如动物、昆虫、汽车、飞机、机器人或植物。根据本实施方式的表演者信息输入/输出系统2将从表演者的3D模型生成的3D视频作为表演者的视频发送至表演者视频显示系统3。

(整理问题)

当从捕获图像生成被摄体的3D模型时，需要从捕获图像中提取被摄体的区域(被摄体的轮廓图像)。为了使得更容易提取被摄体的区域，通常使用绿色屏幕或蓝色屏幕。然而，将除了绿色屏幕等之外的视频呈现为在被摄体周围变得困难。

例如，当进行像上面提及的远程音乐会时，如果观众的视频也能实时地呈现给表演者，则表演者可以在观看观众的情况时执行交互动作，并且这给予观众更高娱乐性体验。也期望给予正在工作室录制以生成3D模型的表演者更高的身处真实音乐会的感觉。

鉴于此，在根据本公开内容的实施方式中，表演者信息输入/输出系统2的定时控制单元24执行控制(高速率下的分时控制)，使得从表演者周围捕获她/他的图像时的图像捕获定时和在表演者周围显示观众视频时的显示定时彼此偏移，并且因此可以进行用于生成表演者的3D模型的图像捕获和表演者对观众视频的视觉识别两者。

图2和图3是用于说明根据本实施方式的获取用于生成表演者的3D模型的信息的工作室中的显示区域(显示区)233(例如，显示器或屏幕)和图像捕获部251(摄像装置)的布置的图。如图2所描绘的，例如，在表演者A周围(例如，圆形地)布置m个摄像装置作为图像捕获部251，并且此外，布置显示器(例如，LED显示器)作为显示区域233A以填补摄像装置之间的空间。另外，在另一示例中，如图3所描绘的，可以在传统上放置绿色屏幕的位置处布置用于投影仪的屏幕(显示区域233B)，并且可以在屏幕后面设置短焦后置投影仪(投影仪234)。注意，能够想到的屏幕的示例例如包括彩色屏幕(例如，绿色屏幕)。另外，尽管在图2和图3所描述的示例中，n个显示区域233和m个图像捕获部251圆形地布置，但是可以将它们布置成形成四边形或其他形状，并且图像捕获部251和显示区域233的布置形状也可以彼此不同。另外，图像捕获部251和显示区域233不仅可以在表演者A周围设置成一行，而且还可以设置成在上下方向上彼此相邻的多行。

以这种方式，显示区域233和图像捕获部251被布置在表演者A周围，并且图像捕获定时和显示观众视频时的显示定时彼此偏移。因此，可以进行用于3D模型生成的图像捕获和观众视频的显示两者。即，表演者信息输入/输出系统2的定时控制单元24控制定时，使得在执行图像捕获时关闭显示，而在执行显示时关闭图像捕获。因此，当关闭显示时，LED显示器的LED被关闭，并且背景成为黑色屏幕，或屏幕的原始颜色(例如，绿色)成为背景。因此，可以获取使得更容易提取表演者的区域的捕获图像。

如上面所说明的，当进行远程音乐会时，生成表演者的自由视点3D视频并将其提供给观众，同时向表演者呈现观众视频。这可以通过允许表演者在观看观众的情况时对观众视频执行交互动作等，给予更高娱乐性体验。

注意，本系统不仅应用于音乐会，而且还广泛应用于在游戏、电信等中经由视频执行交互动作的情况。另外，尽管在本系统中没有提及声音，但是在实现时单独处理声音，并且表演者的声音和观众的声音可以分别被传送至观众侧和表演者侧。例如，表演者的声音可以与表演者的视频一起编码，发送至表演者视频显示系统3，并且由表演者视频显示系统3(也具有声音输出功能)与表演者视频一起进行声音输出。

至此，已经说明了根据本公开内容的实施方式的信息处理系统的概述。接下来，参照附图说明根据本实施方式的信息处理系统中包括的每个装置的具体配置。

<<2.配置示例>>

<2-1.观众信息输出系统1>

如图1所描绘的，观众信息输出系统1具有观众信息获取单元10和发送单元20。观众信息输出系统1可以包括多个信息处理装置，或者可以是单个信息处理装置。本文中假设观众信息输出系统1可以应用于在每个音乐会场地执行获取观众视频的处理的装置(或包括多个装置的系统)，或者应用于由每个观众成员使用的显示终端(信息处理装置)。

(观众信息获取单元10)

观众信息获取单元10获取观众成员的视频(实况动作视频)，或者在观众成员是化身的情况下获取关于化身的每个身体部位的运动信息。观众信息获取单元10还获取观众属性信息(例如，关于观众的图像捕获条件(关于摄像装置的信息等)、性别、年龄、地理区域、场地信息、粉丝俱乐部会员信息、在线分析的热情等)。

·观众示例1的情况(音乐会场地)

在观众是身处诸如体育场、竞技场或大厅的容量较大的音乐会场地的观众的情况下，观众信息获取单元10捕获大范围的观众席的图像作为观众视频，并且生成宽视场视频。具体地，例如，观众信息获取单元10可以通过对用多个单目摄像装置捕获的视频(在不同区域捕获的多条视频数据)执行拼接处理(接合处理)来生成宽视场视频，或者可以使用专用于宽视场图像捕获的仪器，例如全向360度摄像装置。另外，观众信息获取单元10可以执行将宽视场视频处理成按照各种格式(例如，等距圆柱格式或立方体贴图格式)中的任何格式的形式的处理(数据格式转换处理)，并且然后输出由此获得的视频作为观众视频。

·观众示例2的情况(在他们自己的显示终端上观看和收听)

在观众是通过使用电信系统在家等在他们自己的显示终端上观看和收听的观众的情况下，观众信息获取单元10用安装在PC或智能电话上的单目摄像装置捕获观众的图像作为观众视频，并且将这些图像作为观众视频输出。

·观众示例3的情况(虚拟空间中的化身)

在观众是作为化身参与在生成为3DCG等的虚拟空间中举行的音乐会(其中显示表演者的3D视频)的观众的情况下，观众信息获取单元10获取关于观众成员的化身(3DCG角色)的运动信息。运动信息是表示化身的每个身体部位的运动的信息(用于移动的信息)。用来观看和收听虚拟空间视频的显示设备的能够想到的示例例如包括完全覆盖视场的非透明HMD(头戴式显示器)。基于从向每个HMD设置的各种传感器(声音收集单元、RGB摄像装置、眼睛跟踪传感器、IMU(惯性测量单元)传感器等)获取的信号，观众信息获取单元10可以预测对应的身体部位的运动，并且将运动作为化身运动信息(运动捕获数据)输出。为了预测对应的身体部位的运动，可以使用诸如机器学习的技术。具体地，例如，观众信息获取单元10基于从声音收集单元获取的话语的声音信号来生成(化身的)嘴巴的运动，基于从RGB摄像装置获取的图像信号来生成(化身的)面部表达，基于从眼睛跟踪传感器获取的近红外LED信号来生成(化身的)眼睛运动，并且基于用IMU传感器获取的来自加速度传感器和陀螺仪传感器的信号来生成(化身的)头部的平移或旋转运动。注意，用于允许观众观看和收听虚拟空间视频的显示设备和上面提及的各种传感器是示例，并且本实施方式不限于此。各种传感器可以附接至观众的手和脚，或者各种传感器可以设置在观众周围。另外，观众可以使用远程控制器来操纵他们自己的化身的运动。

(发送单元20)

发送单元20经由网络41将观众视频或观众化身运动信息与观众属性信息一起发送至表演者信息输入/输出系统2。

具体地，例如，发送单元20可以用作编码部和复用部。例如，编码部单独编码观众视频或观众化身运动信息以及观众属性信息。接下来，复用部执行对编码流(观众视频编码流或化身运动流以及观众属性信息流)进行复用的处理，并将其数据发送至表演者信息输入/输出系统2。

可以应用视频压缩处理(例如，AVC(H.264)、HEVC(H.265)等)作为观众视频的编码。另外，可以应用专用于化身(例如，3DCG)的绑定(rig)配置(骨样元素)等的编码作为化身运动信息的编码。另外，可以应用专用编码处理作为观众属性信息的编码。

<2-2.表演者信息输入/输出系统2>

如图1所描绘的，表演者信息输入/输出系统2具有接收单元21、分发显示数据生成单元22、显示处理单元23、定时控制单元24、视频获取单元25、表演者信息生成单元26和发送单元27。表演者信息输入/输出系统2可以包括多个信息处理装置，或者可以是单个信息处理装置。另外，分发显示数据生成单元22、显示处理单元23、定时控制单元24、视频获取单元25和表演者信息生成单元26可以是表演者信息输入/输出系统2的控制部的功能的示例。另外，接收单元21和发送单元27可以是表演者信息输入/输出系统2的通信部的功能的示例。

另外，显示处理单元23可以执行由显示设备(显示器或投影仪)实现的显示区域中的显示的处理。另外，视频获取单元25包括用摄像装置对视频信号的获取。注意，下面还将适当地参照图4、图7和图8中描绘的框图来说明表演者信息输入/输出系统2的配置。图4是主要描绘根据本实施方式的表演者信息输入/输出系统2的显示处理单元23的具体配置示例的框图。图7是主要描绘根据本实施方式的表演者信息输入/输出系统2的视频获取单元25的具体配置示例的框图。图8是主要描绘根据本实施方式的表演者信息输入/输出系统2的表演者信息生成单元26的具体配置示例的框图。

(2-2-1.接收单元21)

接收单元21从观众信息输出系统1接收观众视频(或化身运动信息)和观众属性信息，并将其输出至分发显示数据生成单元22。

具体地，例如，接收单元21用作解复用部和解码部。作为解复用部，接收单元21将从观众信息输出系统1接收到的数据分离成观众视频编码流或化身运动流以及观众属性信息流，并将其输出至解码部。接下来，解码部用对应的解码器执行解码处理。具体地，解码部对输入的观众视频编码流执行解码处理，并将其作为观众视频信息输出。替选地，解码部对输入的化身运动流执行解码处理，并将其作为化身运动信息输出。另外，解码部对观众属性信息流执行解码处理，并将其作为观众属性信息输出。

(2-2-2.分发显示数据生成单元22)

分发显示数据生成单元22基于从接收单元21输入的观众视频信息，生成要显示和分发到布置在表演者周围的多个显示区域233(参见图2和图3)的分发显示数据(视频信号)，并且将分发显示数据输出至显示处理单元23。这里，在从多个音乐会场地发送观众视频的情况下，分发显示数据生成单元22可以输出由表演者选择的音乐会场地的观众视频。另外，在由电信系统发送每个人的观众视频的情况下，分发显示数据生成单元22可以输出与由表演者选择的属性(例如，年龄段、性别、特定的会员编号等)对应的观众视频。另外，在发送关于参与在虚拟空间中举行的音乐会的观众的化身运动信息的情况下，分发显示数据生成单元22可以根据运动信息控制每个化身的运动，并且还可以生成从虚拟空间中的表演者的视点(例如，从虚拟空间中的舞台)看到的视频(包括观众成员的化身的视场)，并且将视频作为观众视频输出。

在下文中，参照图4给出具体说明。如图4所描绘的，由接收单元21解码的观众视频信息510和观众属性信息520、预生成的工作室属性信息530(例如，显示设备的类型、尺寸和数目，表演者与显示设备之间的相对位置关系，环境亮度等)以及表演者交互信息540被输入至分发显示数据生成单元22。表演者交互信息540是基于表演者进行的操纵、姿势等生成的，并且包括关于由表演者选择的场地或观众属性的信息。例如，表演者交互信息540是在表演者信息输入/输出系统2中通过对表演者的话语声音的分析、通过对捕获图像上的姿势(用手指指向等)的分析、通过由表演者进行的按钮操纵(向表演者握住的麦克风设置的开关等)、通过由分发者侧的工作人员进行的操纵等生成的，并且被输入至分发显示数据生成单元22。通过向表演者握住的麦克风设置开关等，表演者即使在音乐会表演期间也可以毫无不适感地执行操纵。另外，可以在图像上由传感器等识别表演者的一些舞蹈动作，并且表演者交互信息可以反映识别的结果。

考虑到表演者交互信息，分发显示数据生成单元22确定用于下游侧的显示处理单元23的显示模式(数据选择、位置、大小、方向等)。另外，根据确定的显示模式，分发显示数据生成单元22处理观众视频等，并且将处理后的视频信号等作为分发显示数据(要显示和分发到多个显示区域233的数据)输出至显示处理单元23。在下文中，将关于分发显示数据生成单元22的功能具体说明第一观众示例至第三观众示例中的每一个。

·第一观众示例的情况(音乐会场地)

在观众是身处诸如体育场、竞技场或大厅的容量较大的音乐会场地的观众的情况下，分发显示数据生成单元22可以用作观众场地选择部和数据生成部。能够想到，在第一观众示例中，针对多个不同的音乐会场地分发音乐会。在这种情况下，在工作室中进行音乐会表演的表演者也可以与特定音乐会场地通信(例如，针对特定音乐会场地呼叫或讲话)。如果表演者选择特定音乐会场地，则由观众场地选择部选择音乐会场地，并且由数据生成部适当地处理音乐会场地的观众视频。接下来，处理后的数据(视频信号)被输出至显示处理单元23，并且由显示处理单元23显示在显示区域233中。

更具体地，观众场地选择部基于表演者交互信息(包括关于由表演者选择的场地的识别信息)，选择关于由表演者在多个不同的音乐会场地中选择的音乐会场地的观众视频信息以及伴随观众视频信息的观众属性信息，并将其输出至下游侧的数据生成部。

数据生成部处理选择的观众视频信息使得以实际大小显示从表演者的视点看到的观众的视频，同时考虑由工作室属性信息530表示的向表演者显示的条件(例如，显示区域的类型、大小和数目，表演者与显示区域之间的相对位置关系，环境亮度等)和由选择的观众属性信息表示的观众图像捕获条件(例如，摄像装置的位置、FOV(视场)等)，并且将处理的结果作为分发显示数据输出。

注意，在没有选择任何特定音乐会场地时，观众场地选择部可以定期随机地选择一个或更多个音乐会场地，或者可以选择所有音乐会场地。因此，例如，在显示区域233中随机地定期切换一个或更多个音乐会场地的观众视频时显示观众视频，或者在显示区域233中显示所有音乐会场地的观众视频。

·第二观众示例的情况(在他们自己的显示终端上观看和收听)

在观众是通过使用电信系统在家等在他们自己的显示终端上观看和收听的观众的情况下，分发显示数据生成单元22可以用作观众分组分析/选择部和数据生成部。能够想到，在第二观众示例中，使用电信系统为在家的观众分发音乐会。在这种情况下，在工作室中进行音乐会表演的表演者也可以与特定观众群体(例如，女性群体、儿童群体、成人群体、特定地理区域的居民的群体、兴奋的粉丝群体、戴眼镜的群体等)沟通(针对特定观众群体呼叫或讲话)。观众分组分析/选择部选择属于由表演者指定(选择)的观众群体的观众成员的观众视频，并且数据生成部适当地处理选择的观众视频。接下来，处理后的数据(视频信号)被输出至显示处理单元23，并且由显示处理单元23显示在显示区域233中。

更具体地，观众分组分析/选择部基于表演者互动信息(包括关于由表演者指定的观众群体的识别信息)选择关于由表演者从观众群体中指定(选择)的观众群体的观众视频信息以及伴随观众视频信息的观众属性信息，并将它们输出至下游侧的数据生成部。注意，观众分组分析/选择部可以基于预先登记的观众信息(观众信息也可以包括在观众属性信息中)来执行分组，或者可以基于通过分析各个观众视频而获得的信息(通过人脸识别技术获得的年龄、性别和面部表达表情，通过分析头部运动获得的兴奋程度等)来执行分组。在基于时间上变化的信息(例如，提升的程度、面部表达等)来分组的情况下，可以始终执行分组，或者可以在输入表演者交互信息的情况下执行分组。

数据生成部处理选择的观众视频信息使得例如以视觉上可识别的大小平铺显示每个观众成员的脸，同时考虑由工作室属性信息530表示的向表演者显示的条件(例如，显示区域的类型、大小和数目，表演者与显示区域之间的相对位置关系，环境亮度等)和由选择的观众属性信息表示的观众图像捕获条件(例如，摄像装置的位置、FOV(视场)等)，并且将处理的结果作为分发显示数据输出。

注意，当没有指定(选择)任何特定观众群体时，观众分组分析/选择部可以定期随机地选择一个或更多个观众群体，或者可以选择全部观众。因此，例如，在显示区域233中随机地定期切换一个或更多个观众群体的观众视频时显示观众视频，或者在显示区域233中显示全部观众的观众视频。

·第三观众示例的情况(虚拟空间中的化身)

在观众是作为化身参与在生成为3DCG等的虚拟空间中举行的音乐会(其中显示表演者的3D视频)的观众的情况下，分发显示数据生成单元22可以用作表演者的视点移动部和数据生成部。在第三观众示例中，可以通过在虚拟空间中实时地显示表演者的3D视频(体积图像)来举行音乐会。观众例如通过在他们的头上穿戴覆盖他们的视场的HMD，观看和收听在虚拟空间中举行的音乐会的视频(从虚拟空间中的观众的视点(例如，观众成员的化身的视点或者在视场中从其可以看到观众成员的化身的视点))。另外，在表演者进行表演的工作室中，从虚拟空间中的表演者的视点看到的视频(例如，从虚拟空间中的舞台看到的化身所坐的观众席的视图)被显示在表演者周围的显示区域233中，并且表演者可以在观看观众的情况下进行音乐会表演。在这种情况下，表演者也可以接近特定化身并与之沟通。表演者的视点移动部识别由表演者指定(选择)的化身，并且数据生成部渲染识别的化身的视频，使得可以生成观众视频，使得看起来好像表演者的视点正在接近虚拟空间中的化身。接下来，生成的数据(视频信号)输出至显示处理单元23，并且由显示处理单元23显示在显示区域233中。

更具体地，表演者的视点移动部基于表演者交互信息(包括关于表演者打算接近的化身的识别信息)识别由表演者指定(选择)的化身，选择关于化身的信息(运动信息或用于显示化身的信息，例如3DCG)和伴随它的观众属性信息，并将它们输出至下游侧的数据生成部。

数据生成部生成视频，使得看起来好像表演者正在接近虚拟空间中的特定化身，同时考虑由工作室属性信息530表示的向表演者显示的条件(例如，显示区域的类型、大小和数目，表演者与显示区域之间的相对位置关系，环境亮度等)和由选择的观众属性信息表示的识别的化身的渲染条件(例如，虚拟空间中的化身的位置、方向和大小，关于纹理的材料信息，照明等)，并且将生成的结果作为分发显示数据输出。

(2-2-3.显示处理单元23)

显示处理单元23执行分离从分发显示数据生成单元22输出的分发显示数据(视频信号)的处理，并将其显示在多个显示区域233中。在下文中，参照图4给出具体说明。

如图4所描绘的，显示处理单元23具有视频信号分离部231、多个视频处理部232和多个显示区域233。视频信号分离部231将从分发显示数据生成单元22输出的分发显示数据(视频信号)分离成用于每个显示区域的数据块，并且将分离数据块输出至各自针对显示区域执行显示控制的多个视频处理部232。每个视频处理部232执行控制以适当地对接收到的数据(分离的数据)执行校正，并且然后将接收到的数据显示在对应的显示区域233中。

在上面提及的第一观众示例的情况下，在多个显示区域223中显示的观众视频是容量较大的音乐会场地处的捕获的观众的视频。另外，在第二观众示例的情况下，观众视频可以是例如其中平铺布置电信系统的视频如视频聊天画面(用PC的摄像装置捕获的观众的视频)的视频。另外，在第三观众示例3的情况下，观众视频是从虚拟空间中的表演者的视点看到的视频。从表演者的视点看到的视频可以是来自其中表演者被布置为虚拟空间中的表演者化身的3D视频(从表演者的3D模型生成的实况动作的3D视频；体积图像)的脸(眼睛)的位置的视场的视频(包括观众成员的化身)。另外，表演者的视点可以是在视场中从其可以看到表演者化身和观众化身两者的视点，如从稍微离开表演者化身(三维视频)的位置(例如，从表演者化身的后面等)看到的。

这里，根据本实施方式的每个视频处理部232在基于从定时控制单元24输入的显示定时信息551的定时处显示观众视频。由显示定时信息551表示的显示ON的定时和由从定时控制单元24输出至捕获图像获取单元25的图像捕获定时信息552表示的图像捕获ON的定时彼此偏移(变得不同)。由于这一点，在本实施方式中，可以在图像捕获ON的定时处关闭显示，并且可以用捕获图像获取单元25获取适合于生成表演者的3D模型的捕获图像。注意，由于多个视频处理部232根据相同的显示定时信息551控制显示定时(控制显示速率)，因此所有显示区域233(显示区域233-1至233-n)中的显示的定时可以是同步的(显示在相同定时处完全开启和关闭)。

显示区域233可以是由图2中描绘的显示器实现的显示区域233A，或者可以是由图3中描绘的屏幕实现的显示区域233B。在屏幕的情况下，可以由投影仪234执行显示区域233B中的显示。

另外，可以由各自与显示器或投影仪通信连接的信息处理装置实现视频信号分离部231和多个视频处理部232。替选地，可以由与许多显示器或投影仪通信连接的信息处理装置实现接收单元21、分发显示数据生成单元22、视频信号分离部231、多个视频处理部232和定时控制单元24。

在下文中，将进一步详细说明。

·视频信号分离部231

在作为数据(视频信号)分离方法，例如观众视频显示在多个单体LED显示器(显示区域233A-1至233A-n)或链接在一起的用于投影仪投影的多个屏幕(显示区域233B-1至233B-n)上的情况下，视频信号分离部231根据显示器或屏幕的布置，分发对应于各个显示器或屏幕的视频信号。

注意，在不使用单独的显示器或屏幕的情况下(在使用单个显示器或屏幕的情况下)，视频信号分离部231可以配置观众视频，使得其对应于设置在显示器或屏幕上的一个显示区域中的多个显示区域。

·视频处理部232

例如，视频处理部232可以用作亮度校正部2320a、颜色校正部2320b和显示速率控制部2320c。注意，这里说明的校正是示例，并且本实施方式不限于此。另外，不一定要执行校正。

例如，取决于用从定时控制单元24分别输入的显示定时信息551指定的显示速率，视频处理部232对从视频信号分离部231输入的分离数据(根据显示区域分离的视频信号)通过使用亮度校正部2320a适当地执行视频亮度校正，或者通过使用颜色校正部2320b适当地执行视频颜色校正。

具体地，在显示区域233是LED显示器的情况下，将LED关闭，同时在不显示视频的时间段内(无显示时段)显示黑色屏幕。这导致这样的现象：随着无显示时段的长度的增加，视频看起来更暗，因为人以时间整合方式来感知视觉信息。因此，如图5中左侧所描绘的，亮度校正部2320a校正分离数据的亮度，使得显示器的亮度校正的强调程度随着无显示时段的长度增加而增加。另一方面，在投影仪在彩色屏幕(例如，绿色屏幕)上投影的情况下，随着不执行视频投影(例如，通过将液晶快门等附接至投影仪)的时间段的增加，视频看起来不期望地是绿色的，因为人以时间整合方式感知视觉信息。因此，如图5中右侧所描绘的，颜色校正部2320b校正分离数据的颜色，使得投影仪的颜色校正的强调程度随着无显示时段的长度增加而增加。可以取决于显示区域233的类型等执行亮度校正和颜色校正中的任何一个或两者。

另外，校正强度的实际调整可以通过使测试信号以预期的显示速率显示，以及通过手动和视觉调整亮度和颜色预先设置校正参数来预先进行。另外，可以用单独的摄像装置捕获显示区域233的图像，并且亮度校正部2320a和颜色校正部2320b可以通过使用捕获图像自动执行校正。

然后，显示速率控制部2320c控制在对应的显示区域233中对校正后的视频的显示，使得其以用显示定时信息551指定的显示速率显示。具体地，在LED显示器的情况下，显示速率控制部2320c控制LED的开启和关闭，而在投影仪的情况下，显示速率控制部2320c控制向投影仪设置的液晶快门的打开和关闭。

注意，在已经预先确定表演者的方向(她/他看的方向)的情况(在其他情况或已经决定了前面方向的情况)下，显示处理单元23不需要在所有显示区域中显示视频，并且可以打算通过将表演者的盲点位置处的显示区域保持关闭(显示OFF)来节省电力。

(2-2-4.定时控制单元24)

定时控制单元24执行控制以生成显示定时信息551并将其输出至显示处理单元23，并且同时，生成图像捕获定时信息552并将其输出至视频获取单元25。具体地，定时控制单元24生成用于使显示ON的定时和图像捕获ON的定时偏移(使之变得不同)的定时信息，并将其输出。

图6是描绘根据本实施方式的显示ON/OFF和图像捕获ON/OFF的定时的控制的示例的图。在本实施方式中，如图6所描绘的，执行控制，使得当开启图像捕获时关闭显示，而当关闭图像捕获时开启显示。因此，如上面所提及的，当在表演者的背景为黑色屏幕或绿色屏幕的状态下关闭显示时，可以用获取信息以生成作为被摄体的表演者的3D模型的图像捕获部(摄像装置)执行图像捕获。

更具体地，定时控制单元24生成显示定时信息(显示同步信号)，显示定时信息用于在关闭用于生成表演者的3D模型的图像捕获时开启观众视频的显示，并且定时控制单元24将显示定时信息输出至显示处理单元23，而定时控制单元24生成图像捕获定时信息(图像捕获同步信号)，图像捕获定时信息用于在开启用于生成表演者的3D模型的图像捕获时关闭观众视频的显示，并且定时控制单元24将图像捕获定时信息输出至视频获取单元25。

注意，为了不感知到闪烁，期望将超过其而认为显示ON定时已经到来的频率设置为等于或高于临界闪烁频率(约30Hz至40Hz)的频率。即，定时控制单元24以至少满足临界闪烁频率的显示速率(高速率)执行观众视频显示控制。

另外，为了提供从ON切换到OFF(或从OFF切换到ON)的过渡时间，其中在每个设备如显示器或摄像装置中可以实际发生时间滞后，例如，视频获取单元25的图像获取速率控制部2510a(参见图7)可以调整摄像装置(图像捕获部)的快门速度并设置曝光时间，使得其变得短于图6中描绘的图像捕获定时中的ON时段。另外，类似地，显示速率控制部2320c也设置LED的开启(或投影仪的液晶快门的打开时间)，使得其变得短于显示定时中的ON时段。

(2-2-5.视频获取单元25)

视频获取单元25具有获取用于生成表演者的3D模型的视频(捕获图像)的功能。视频获取单元25根据从定时控制单元24输入的图像捕获定时信息552，用如图2或图3中描绘的那样在表演者周围布置的许多(例如，几十个)摄像装置(图像捕获部251)从各种角度同时捕获表演者的图像(控制快门)，并且获取许多捕获图像。另外，视频获取单元25整合许多捕获图像，并且将整合后的图像作为多视点数据输出至执行表演者的3D模型等的生成的表演者信息生成单元26。注意，摄像装置(图像捕获部251)可以包括感测深度信息的各种设备。在这种情况下，多视点数据不仅可以包括RGB信号，而且还可以包括深度信号或感测信号(例如，红外信号)，这些信号是深度信号的源信号。

在下文中，参照图7进一步详细说明。图7是主要描绘根据本实施方式的表演者信息输入/输出系统2的视频获取单元25的具体配置示例的框图。

如图7所描绘的，视频获取单元25包括多个图像捕获部(摄像装置)251和多视点数据生成部252。例如，多视点数据生成部252和表演者信息生成单元26可以由与许多图像捕获部251(摄像装置)通信连接的信息处理装置实现。替选地，定时控制单元24、多视点数据生成部252、表演者信息生成单元26和发送单元27可以由与许多图像捕获部251(摄像装置)通信连接的信息处理装置实现。

如图7所描绘的，每个图像捕获部251具有图像捕获速率控制部2510a、捕获图像信号获取部2510b和信号校正部2510c的功能。图像捕获速率控制部2510a根据由从定时控制单元24输入的图像捕获定时信息552表示的图像捕获速率，向下游侧的捕获图像信号获取部2510b输出诸如的快门速度或光圈值的信息。捕获图像信号获取部2510b以各种摄像装置参数例如快门速度或光圈值捕获被摄体(表演者)的图像，获取捕获图像(捕获图像信号)，并且将捕获图像输出至下游侧的信号校正部2510c。信号校正部2510c执行各种信号校正处理，例如降噪、分辨率变换处理或动态范围转换，并且将校正后的捕获图像输出至多视点数据生成部252。注意，校正的细节不限于此，并且不一定要执行这里描述的整个校正。

另外，要输出至多视点数据生成部252的捕获图像可以是用RGB摄像装置捕获的图像的仅RGB信号，或者可以是包括用各种深度传感器获取的深度信号和作为深度信号的源信号的感测信号(例如，红外信号)的信号。

多视点数据生成部252整合输入的各视点的捕获图像(例如，几十个捕获图像)，并且将整合的捕获图像作为多视点数据560输出至表演者信息生成单元26。

(2-2-6.表演者信息生成单元26)

表演者信息生成单元26基于从视频获取单元25输入的多视点数据560生成表演者的3D模型，从3D模型生成表演者视频(例如，表演者的实况动作3D视频)，并且将表演者视频输出至发送单元27。另外，表演者信息生成单元26根据从多视点数据560检测到的表演者的三维位置或方向(例如，六种运动模式，即视线在上下方向上的运动、视线在左右方向上的运动、倾斜头部的运动、身体在前后方向上的移动、身体在左右方向上的移动和身体在上下方向上的移动)以及根据表示显示区域的布置的显示区域布置信息570，生成表示表演者正在看向多个显示区域233中显示的哪个观众成员(或观众化身)的表演者的注视信息，并且将表演者的注视信息发送至发送单元27。

参照图8说明表演者信息生成单元26的细节。图8是主要描绘根据本实施方式的表演者信息输入/输出系统2的表演者信息生成单元26的具体配置示例的框图。

如图8所描绘的，表演者信息生成单元26用作预处理部263、表演者视频生成部261和表演者的注视信息生成部262。

预处理部263执行诸如校准或图像捕获被摄体轮廓提取(前景-背景分离)的处理，并且将预处理后的多视点数据输出至下游侧的表演者视频生成部261和表演者的注视信息生成部262。

表演者视频生成部261可以基于预处理后的多视点数据来生成表演者的3D模型(3D建模数据)，并且根据3D模型生成从某个视点被渲染以再现视频的2D表演者视频(自由视点视频)，或生成用于渲染3D表演者视频的数据(数据包括3D建模数据和纹理数据)，该3D表演者视频旨在作为立体全息图或在3D显示器、HMD等上进行3D显示观看和收听。

·建模

表演者视频生成部261具有生成3D模型的建模部的功能。建模部基于预处理后的多视点数据生成3D建模数据(3D模型)。作为3D建模的技术，例如，可以使用如视觉外壳(Visual Hull)的自轮廓重构形状(Shape from Silhouette)技术(SFS方法)或多视点立体技术(MVS方法)，但是这些不是唯一示例。另外，3D建模数据的数据格式可以例如是诸如点云、体素或网格的表达格式中的任何表达格式。

·2D表演者视频(自由视点视频)的生成

表演者视频生成部261还具有2D视频生成部的功能，并且可以根据3D模型(3D建模数据)生成2D表演者视频(自由视点视频)。能够想到，在这样的示例中，观众用2D显示器观看和收听表演者视频。例如，能够想到，在上面提及的第一观众示例中，在音乐会场地在大尺寸屏幕或大尺寸显示器上呈现2D表演者视频。另外，还能够想到，在第二观众示例中，每个观众成员通过使用电信系统通过在家使用2D显示器等来观看和收听2D显示的表演者视频。另外，能够想到，在第三观众示例中，在虚拟空间中2D显示表演者视频(例如，显示在虚拟屏幕上)。

2D视频生成部根据预处理后的多视点数据中包含的RGB数据和3D建模数据生成从某个视点被渲染以再现视频的2D视频(自由视点视频)，并将它们作为表演者视频显示信息输出。注意，要由2D视频生成部设置的视点可以由分发者侧的工作人员(视频制作指导等)决定，或者可以基于从观众侧交互指定的信息(从观众侧单独发送的信息)决定。

·用于渲染3D表演者视频的数据的生成

表演者视频生成部261还具有3D视频显示数据生成部的功能，并且可以根据3D模型(3D建模数据)生成用于渲染3D表演者视频的数据。在这样的示例中，能够想到，观众观看和收听作为立体全息图或在3D显示器、HMD等上的3D显示的表演者视频。例如，能够想到，在上面提及的第一观众示例中，表演者的立体全息图作为表演者视频呈现在音乐会场地。另外，还能够想到，在第二观众示例中，每个观众成员通过使用电信系统通过在家使用3D显示器等来观看和收听3D显示的表演者视频。另外，还能够想到，在第三观众示例中，在虚拟空间中3D显示表演者视频。

3D视频显示数据生成部根据预处理后的多视点数据中包括的RGB数据生成与3D建模数据对应的3D纹理数据。接下来，3D视频显示数据生成部将通过复用3D纹理数据和3D建模数据而获得的3D视频显示数据(体积数据)作为表演者视频显示信息输出至发送单元27。注意，3D纹理数据可以以考虑到视点依赖性渲染的格式生成，或者可以包括考虑到被摄体的表面的纹理的数据。

图8中描绘的表演者的注视信息生成部262提取从预处理后的多视点数据中检测到的表演者的三维位置或方向(例如，六种运动模式，即视线在上下方向上的运动、视线在左右方向上的运动、倾斜头部的运动、身体在前后方向上的移动、身体在左右方向上的移动和身体在上下方向上的移动)，并且估计表演者的视线方向。视线方向的检测可以替代地使用表演者的头部的方向的检测结果(在这种情况下，表演者的头部的方向可以通过分析预处理后的多视点数据来确定，或者可以通过使用由表演者穿戴的IMU设备(惯性测量单元)来检测)。

接下来，表演者的注视信息生成部262组合表演者的视线方向和表示多个显示区域的布置的显示区域布置信息570，以生成表示表演者正在看向多个显示区域233中显示的哪个观众成员(或观众化身)的表演者的注视信息，并将其输出至发送单元27。注意，表演者的注视信息生成部262可以根据表演者交互信息生成表演者的注视信息(关于由表演者选择的音乐会场地的信息等)。

以这种方式，表演者信息生成单元26将表演者视频显示信息580(2D视频或3D视频显示数据)和表演者的注视信息590作为表演者信息输出至发送单元27。

(2-2-7.发送单元27)

发送单元27经由网络42将表演者信息(表演者视频显示信息580和表演者的注视信息590)发送至表演者视频显示系统3。发送单元27可以以根据接收者侧的数据格式对表演者信息进行编码，并且然后将编码数据传送至表演者视频显示系统3。

例如，发送单元27用作表演者视频编码部、表演者的注视信息编码部和数据复用部。表演者视频编码部用预定编解码器对表演者视频(2D视频或3D视频显示数据)进行编码，并将其作为表演者视频编码流输出。另外，表演者的注视信息编码部用预定编解码器对表演者的注视信息进行编码，并将其作为表演者的注视信息编码流输出。注意，要用于3D视频显示数据的编解码器可以是由MPEG标准化的基于点云的V-PCC编解码器，或者可以使用结合使用网状数据编码的另一方案。

数据复用部对表演者视频编码流和表演者的注视信息编码流进行复用，并将其作为复用数据输出至发送单元27。

<2-3.表演者视频显示系统3>

如图1所描绘的，表演者视频显示系统3具有接收单元31、显示控制单元32和显示单元30。表演者视频显示系统3可以包括多个信息处理装置，或者可以是单个信息处理装置。本文中假设表演者视频显示系统3可以应用于在每个音乐会场地执行显示视频的处理的装置(或包括多个装置的系统)，或者应用于由每个观众成员使用的显示终端(信息处理装置)。

另外，显示控制单元32可以是表演者视频显示系统3的控制部的功能的示例。另外，接收单元31可以是表演者视频显示系统3的通信部的功能的示例。另外，显示单元30由2D显示器(PC、智能电话、平板终端等)、3D显示器(HMD等)、立体全息图呈现装置等实现。

(接收单元31)

接收单元31将从表演者信息输入/输出系统2接收到的表演者信息输出至显示控制单元32。更具体地，接收单元31通过解复用处理将从表演者信息输入/输出系统2接收到的复用数据(复用表演者信息)分离成表演者视频编码流和表演者的注视信息编码流。接下来，接收单元31用预定解码器对表演者视频编码流和表演者的注视信息编码流中的每一个执行解码处理，并且将表演者视频(2D视频或3D视频显示数据)和表演者的注视信息输出至显示控制单元32。

(显示控制单元32)

显示控制单元32基于从接收单元31输出的表演者视频(2D视频或3D视频显示数据)和表演者的注视信息根据需要执行控制以处理2D视频、生成3D视频等，并在显示单元30上显示2D或3D表演者视频。

根据本实施方式的显示控制单元32可以基于表演者的注视信息，通过对表演者正在注视的观众成员应用特殊的表达(舞台艺术)，作为更真实的体验向观众提供表演者的音乐会表演。在下文中给出具体说明。

·2D表演者视频的情况

表演者视频生成部321参考表演者的注视信息。在表演者正在注视某个观众成员(观看和收听由表演者视频显示系统3呈现的表演者视频的观众)的情况下，表演者视频生成部321适当地处理表演者视频，并且生成表演者视频，使得明确表示观众成员正被表演者注视。注意，表演者的注视信息可以从表演者信息输入/输出系统2仅发送至被表演者注视的观众成员。

图9是描绘根据本实施方式的2D表演者视频上的表演者的注视表达处理的示例的图。图9中上侧描绘了尚未经受注视表达处理的图像310，并且图9中下侧描绘了已经经受注视表达处理的图像311a至311c。例如，图像311a另外具有围绕图像的框，从而表达表演者正在注视观众成员。另外，在图像311b中，表演者的脸被放大，从而表达表演者正在注视观众成员。另外，图像311c另外具有箭头等，强调表演者的视线是朝向观众成员的(表演者正在看向摄像装置)，从而表达表演者正在注视观众成员。注意，在表演者信息输入/输出系统2的表演者信息生成单元26中，可以预先为表演者正在注视的观众成员生成以下表演者视频：该表演者视频从使得表演者面向表演者所注视的观众的视点被渲染以再现视频。

如上所述，观众成员可以意识到表演者正在注视他们的同时进行音乐会表演。注意，根据本实施方式的注视表达的处理模式不限于图9中描绘的示例。

·3D表演者视频的情况

还能够想到，在本实施方式中，观众正在观看和收听作为立体全息图或在3D显示器、HMD等上的3D表演者视频。表演者视频生成部321可以通过使用解码3D视频显示数据中包括的3D纹理数据和3D建模数据来渲染3D表演者视频。

这里，在假定在第一观众示例中音乐会被分发到多个不同的音乐会场地的情况下，表演者的注视信息是表示表演者正在注视的音乐会场地(由表演者选择作为她/他打算以特定方式沟通的音乐会场地)的信息。另外，在第一观众示例的情况下，例如，如图10所描绘的，可以控制显示，使得在观众侧音乐会场地与表演者侧工作室之间保持观众侧音乐会场地如何被观看和表演者侧工作室如何被观看方面(例如，表演者与观众之间的相对位置关系，以及他们的大小)的一致性。在图10中描绘的示例中，例如，在音乐会场地的舞台上显示3D表演者视频(立体全息图)312，并且在舞台周围的三个方向上定位观众群B1至B3。观众群B1至B3的图像各自用单目摄像装置捕获，并且通过接合三个观众视频而形成的宽视场观众视频被发送至表演者信息输入/输出系统2。如图10中右侧所描绘的，表演者信息输入/输出系统2将宽视场观众视频分发到定位在工作室中表演者A周围的三个方向上的显示区域233-1至233-3，使得观众视频对应于表演者与音乐会场地侧的观众群之间的位置关系，并且显示相应观众群B1至B3的观众视频。因此，保持了关于视频在两侧如何被观看的一致性。

在下面参照图11说明的表演者的注视表达的具体示例中，在执行这样的显示控制的情况下，由表演者选择特定音乐会场地。假定在图11中描绘的示例中，例如，表演者说：“场地D！”操纵向她/他握住的麦克风设置的开关，指向其中正在显示场地D的显示区域等，从而选择场地D(音乐会场地D)。

在这种情况下，如图11中上侧所描绘的，在表演者侧工作室中，表演者信息输入/输出系统2的分发显示数据生成单元22基于表演者交互信息(从上述表演者所说的话、开关操纵、用手指指向等生成的信息)在显示区域233-1至233-3中显示音乐会场地D的观众群B1_D至B3_D的视频。注意，控制在工作室中表演者与观众之间的相对位置关系，使得其与音乐会场地中的相对位置关系匹配D。

另一方面，如图11中下侧所描绘的，在多个不同的音乐会场地(例如，音乐会场地C和音乐会场地D)，3D表演者视频312例如作为立体全息图显示在音乐会场地的中心舞台。另外，在每个场地，在围绕中心舞台的三个方向上定位观众。这里，在选择了音乐会场地D的情况下(在注视信息表示音乐会场地D是注视被摄体音乐会场地的情况下)，在音乐会场地D，如图11中右下侧所描绘的，在中心舞台上的3D表演者视频312的脚下另外显示圆形舞台艺术图像(其可以是3D视频)。因此，可以向音乐会场地D的观众明确指示他们正在被表演者注视。注意，表演者的注视表达方法不限于图11中描绘的示例，并且可以在3D表演者视频312的脚下显示具有另一形状的图像，或者在表演者周围显示用于舞台艺术效果的3DCG。另外，可以由除了视频之外的舞台艺术例如在音乐会场地D的照明的闪烁、烟花、彩纸或声音效果来执行注视表达。

尽管已经参照图11说明了在音乐会会场作为3D全息图呈现3D表演者视频的情况下表演者的注视表达，但是本实施方式不限于此，并且在如图12所描绘的通过使用大屏幕显示器(或屏幕)呈现3D表演者视频的情况下，也可以执行各种表演者的注视表达。在图12中描绘的示例中，如图12中右下侧所描绘的，在表演者正在注视的演唱会场地D的大屏幕显示器(或屏幕)30D上，显示框图像，点亮表演者周围的空间，在表演者周围显示用于舞台艺术效果的图像等，并且因此，可以表达演唱会场地D已被选择。

被表演者选择的音乐会现场的观众根据如上面提及的注视表达的各种表演者的注视表达，可以直观地和视觉地(或听觉地)意识到他们被表演者选择。因此，他们可以感受到与表演者的交互，并且获得接近于实际音乐会的体验。

注意，也参照图13说明在第三观众示例的情况下表演者的注视表达。图13是用于说明根据本实施方式的在表演者指定了特定观众化身的情况下表演者的注视表达的示例的图。第三观众示例表示观众成员作为他们的化身(观众化身)参与在虚拟空间中举行的音乐会的情况。在图13中描绘的示例中，假定当进行音乐会表演的表演者化身313(表演者的3D视频)和参与音乐会的观众化身布置在虚拟空间中时，表演者指定观众化身T。在这种情况下，如图14中右侧所描绘的，表演者化身313接近虚拟空间中的观众化身T。在与观众化身T对应的每个观众成员的显示终端(例如，HMD)上，在这种状态下生成并显示用于再现来自观众化身的视点的视频的渲染图像。因此，观众成员可以具有这样的虚拟体验，就好像表演者在实际音乐会场地在接近他们的同时进行音乐会表演。

上面已经具体说明了根据本实施方式的信息处理系统的配置中的每一个。在本实施方式中，根据在工作室中捕获的表演者的图像生成3D模型，并且将根据3D模型从某些视点生成的2D或3D表演者视频实时地分发到远程位置处的观众。此时，通过以高速率执行时分控制使得显示的定时和图像捕获的定时彼此偏移，可以进行在通常是绿色屏幕的表演者的背景中(表演者周围)的观众视频的显示和用于3D模型生成的表演者的图像捕获两者。另外，通过将观众视频如何被表演者视觉识别的情况通知给远程位置处的观众，可以提供允许观众感受到与表演者的交互并且更接近实际音乐会的体验。

<<3.操作处理>>

图14是描绘根据本实施方式的表演者信息输入/输出系统2中的显示和图像捕获的操作处理的过程的示例的流程图。

如图14所描绘的，首先，表演者信息输入/输出系统2的接收单元21从观众信息输出系统1接收观众视频(步骤S103)。

接下来，分发显示数据生成单元22基于表演者交互信息来选择观众场地/观众群体/观众化身(步骤S106)，并且基于选择的观众场地/观众群体的视频或关于选择的观众化身的运动信息来生成分发显示数据(步骤S109)。

接下来，显示处理单元23根据从定时控制单元24输入的显示定时信息执行控制，以在布置在表演者周围的多个显示区域233中同时显示分发显示数据(步骤S112)。注意，在图像捕获OFF的定时处执行显示。

同时，视频获取单元25根据从定时控制单元24输入的图像捕获定时信息执行控制，以用布置在表演者周围的多个图像捕获捕捉部251同时执行图像捕获(步骤S115)。注意，在显示OFF的定时处执行图像捕获。因此，视频获取单元25可以获得使得更容易提取被摄体的轮廓的捕获图像。

接下来，视频获取单元25从多个捕获图像中的每一个中提取表演者的轮廓图像，并且获取多视点数据(步骤S118)。

接下来，表演者信息生成单元26基于多视点数据来生成表演者的3D模型，根据3D模型生成2D或3D表演者视频(步骤S121)，并且还基于多视点数据来生成表演者的注视信息(步骤S124)。

然后，发送单元27将表演者视频和表演者的注视信息发送至观众侧(表演者视频显示系统3)(步骤S127)。

至此，已经说明了根据本实施方式的操作处理。注意，图14中描绘的操作处理的过程是示例，并且本公开内容不限于此。

<<4.修改示例>>

接下来，将参照图15至图20说明根据本实施方式的信息处理系统的修改示例。

<4-1.第一修改示例>

在第一修改示例中，增加了生成其中在表演者周围呈现观众的虚拟2D视频的功能。虚拟2D视频是通过设置在其处同时执行在工作室中的每个显示区域233中观众视频的显示和用每个图像捕获部251对表演者的图像捕获的定时而获得的。即，通过在用每个图像捕获部251捕获表演者的图像时在表演者(包括背景)周围布置的显示区域233中的每一个中显示观众视频，获得其中观众视频出现在表演者周围的捕获图像(用于虚拟2D视频的多视点数据)。

图15是描绘根据第一修改示例的信息处理系统的配置示例的图。图15中描绘的系统在图1中描绘的系统中另外包括虚拟2D视频生成单元280、发送单元281、网络43和虚拟2D视频显示系统4。

(定时控制)

根据第一修改示例的定时控制单元24a生成包括用于使显示ON的定时和图像捕获ON的定时偏移(使得不同)的控制的定时信息，以及包括用于使显示ON的定时和图像捕获ON的定时同步(使得相同)的控制的定时信息，并且将定时信息输出至显示处理单元23和视频获取单元25。

图16是描绘根据第一修改示例的显示ON/OFF和图像捕获ON/OFF的定时的控制的示例的图。如图16所描绘的，例如，控制定时，使得显示定时中的每个时间段是图像捕获定时中的每个时段的两倍长。即，定时控制单元24a生成定时信息以执行以下控制：在图像捕获开启时关闭显示的控制，在图像捕获开启时开启显示的控制，以及在图像捕获关闭时开启显示的控制，如图16所描绘的。因此，可以在显示关闭时的定时处获取用于生成表演者的3D模型的捕获图像，并且此外，可以在观众视频的显示开启的定时处获取用于虚拟2D视频的捕获图像。另外，在观众视频的显示开启时的定时处也设置图像捕获OFF的定时。注意，在本修改示例中，显示定时信息也从定时控制单元24a输入至视频获取单元25，并且视频获取单元25可以在生成多视点数据时参考显示定时信息，并且获取在显示也开启的定时处捕获的图像作为用于虚拟2D视频的捕获图像。

尽管在图16中描绘的示例中，显示ON的每个时段的长度长于图像捕获ON的每个时段的长度，但是期望使摄像装置的图像捕获定时中的每个时间段更短，并且以高速率执行图像捕获，使得显示ON的时段满足频率必须等于或高于临界闪烁频率(约30Hz至40Hz)的条件。

(虚拟2D视频的生成)

虚拟2D视频生成单元280从视频获取单元25获取用于虚拟2D视频的多视点数据，用于虚拟2D视频的多视点数据是通过整合在图像捕获开启时和观众视频的显示开启的定时处获取的多个捕获图像而获得的。同时，与上面提及的实施方式类似，从视频获取单元25向表演者信息生成单元26输出在图像捕获开启但观众视频的显示关闭的定时处获取的多个捕获图像，作为用于3D模型生成的多视点数据。

虚拟2D视频生成单元280从用于虚拟2D视频的多视点数据中选择某个视点的2D视频(捕获图像)。作为选择方法，2D视频可以由分发者侧的工作人员(负责视频制作的指导等)在考虑到表演者的位置和观众视频的出现方式时进行选择，或者可以通过使用图像分析技术自动选择。另外，虚拟2D视频生成单元280执行处理，以渲染选择的捕获图像，使得其反映舞台艺术的意图。例如，能够想到的示例包括修剪(裁剪)、缩放等。虚拟2D视频生成单元280向发送单元281输出已经经过这样的处理的视频信号作为虚拟2D视频。例如，发送单元281通过使用其中的预定编解码器对虚拟2D视频执行编码处理，并且经由网络43将虚拟2D视频编码数据发送至虚拟2D视频显示系统4。

(虚拟2D视频的呈现)

如图15所描绘的，虚拟2D视频显示系统4具有接收单元401、显示控制单元402和显示单元403。接收单元401用预定解码器对虚拟2D视频编码数据进行解码，并且将虚拟2D视频输出至显示控制单元402。例如，显示控制单元402在音乐会场地的大屏幕431(显示单元403的示例)上显示虚拟2D视频，如图17中描绘的。显示控制单元402为音乐会场地处的观众显示虚拟2D视频。注意，在音乐会场地处，表演者视频显示系统3可以在舞台上单独显示3D表演者视频(立体全息图)312。

即使当观众在观看和收听3D表演者视频(立体全息图)312时，观众也可以在大屏幕431上以第三人的视点观看正在观看观众视频并进行表演的表演者的视频。由于观众可以意识到表演者是在为观众进行表演，因此观众可以以更高的统一感体验远程音乐会。

注意，图17中描绘的虚拟2D视频的呈现位置和显示单元403的类型是示例，并且本实施方式不限于此。例如，显示单元403可以是大尺寸的显示器。

另外，尽管假定在本修改示例中通过一起捕获表演者的图像和显示在显示区域233中的观众视频的图像来生成虚拟2D视频，但是所一起捕获的不限于观众视频。例如，可以通过一起捕获取决于音乐而变化的CG视频(用于舞台艺术效果的视频)的图像和表演者的图像来生成虚拟2D视频。另外，还可以在将来将生成的虚拟2D视频作为录制的音乐会视频使用。

<4-2.第二修改示例>

在第二修改示例中，增加了渲染表演者视频等使得其反映照明效果的功能。图18是描绘根据第二修改示例的信息处理系统的配置示例的图。图18中描绘的系统在图15中描绘的系统中另外包括照明设备29、虚拟2D视频照明效果渲染单元290和表演者视频照明效果渲染单元291。照明设备29被用于舞台艺术，并且一个或更多个照明设备29被设置在工作室中。照明设备29的位置没有特别限制。

(照明定时控制)

根据第二修改示例的定时控制单元24b生成以下定时信息并且将定时信息输出至显示处理单元23、视频获取单元25和照明设备29：包括使显示ON的定时和图像捕获ON的定时偏移(使得不同)的控制的定时信息，包括使显示ON的定时和图像捕获ON的定时同步(使得相同)的控制的定时信息，以及包括使图像捕获ON的定时和照明ON的定时同步(使得相同)的控制的定时信息。

图19是描绘根据第二修改示例的显示ON/OFF、图像捕获ON/OFF和照明ON/OFF的定时的控制的示例的图。定时控制单元24b生成定时信息以执行以下控制：在图像捕获开启时关闭显示和照明的控制，在图像捕获开启时开启显示但关闭照明的控制，以及在图像捕获开启时关闭显示但开启照明的控制，如图19中描绘的。

因此，可以在显示和照明关闭时的定时处获取用于3D模型生成的捕获图像，可以在观众视频的显示开启但照明关闭时的定时处获取用于虚拟2D视频的捕获图像，并且此外，可以在观众视频的显示关闭但照明开启时的定时处获取用于照明效果的捕获图像。

在图19中描绘的示例中，显示OFF的每个时段的长度等于两个重复的图像捕获ON/OFF的时段的长度，并且显示ON的每个时段的长度等于一个图像捕获ON/OFF的时段的长度。同样在这种情况下，期望使摄像装置的图像捕获定时中的每个时间段变短并且以较高的速率执行图像捕获，使得显示ON的时段满足频率必须等于或高于临界闪烁频率(约30Hz至40Hz)的条件。

注意，图19中描绘的定时控制是示例，并且定时控制单元24b可以生成任何定时信息，只要其是用于生成至少三个上述ON/OFF控制组合的定时信息即可。

(多视点数据的生成)

视频获取单元25组合用多个图像获取部251获取的多个捕获图像，并且生成多视点数据。另外，在本修改例中，显示定时信息和照明定时信息也从定时控制单元24b输入至视频获取单元25，并且视频获取单元25可以在生成多视点数据时参考显示定时信息和照明定时信息，获取在显示也开启的定时处捕获的图像作为用于虚拟2D视频的多视点数据，并且获取在照明也开启的定时处捕获的图像作为用于照明效果的多视点数据。另外，可以获取在显示和照明两者均关闭的定时处获取的捕获图像作为用于3D模型生成的多视点数据(用于表演者视频的多视点数据)。

(照明效果渲染)

虚拟2D视频照明效果渲染单元290基于从视频获取单元25输出的用于虚拟2D视频的多视点数据和用于照明效果的多视点数据，对用于照明效果的多视点数据执行诸如运动补偿的对准处理，并且执行渲染用于虚拟2D视频的多视点数据的处理，使得其反映用于照明效果的多视点数据。虚拟2D视频照明效果渲染单元290将渲染后的用于虚拟2D视频的多视点数据输出至虚拟2D视频生成单元280。

另外，表演者视频照明效果渲染单元291基于从视频获取单元25输出的用于3D模型生成的多视点数据和用于照明效果的多视点数据，对用于照明效果的多视点数据执行诸如运动补偿的对准处理，并且执行渲染用于3D模型生成的多视点数据的处理，使得其反映用于照明效果的多视点数据。表演者视频照明效果渲染单元291将渲染后的用于3D模型生成的多视点数据输出至表演者信息生成单元26。

虚拟2D视频照明效果渲染单元290和表演者视频照明效果渲染单元291两者均执行帧插值处理和生成照明效果反映纹理的处理。

图20是用于说明根据第二修改示例的虚拟2D视频照明效果渲染处理和表演者视频照明效果渲染处理的图。例如，表演者视频照明效果渲染单元291对图20中上两行中描绘的数据(用于表演者视频的多视点数据和用于照明效果的多视点数据)执行帧插值处理和照明效果反映纹理的生成。

具体地，首先，通过利用过去和将来现有帧的数据进行插值来生成在图20中描绘的用于表演者视频的多视点数据和用于照明效果的多视点数据中由虚线表示的时间点处的帧。例如，从现有的过去帧562a和现有的将来帧562b生成帧562-1_ab。另外，从现有的过去帧562a和现有的将来帧562b生成帧562-2_ab。帧插值处理可以使用例如通过使用机器学习的预测来自动生成中间帧的技术。

接下来，表演者视频照明效果渲染单元291渲染用于表演者视频的多视点数据的帧(用于3D模型生成的多视点数据)，使得它们反映来自用于照明效果的多视点数据的帧的照明效果。表演者视频照明效果渲染单元291使用以下中的至少之一作为参考数据：用于照明效果的多视点数据的帧(例如，帧562-1_ab)，其在时间上对应于用于表演者视频的目标多视点数据中某个时间处的帧(例如，由对角线表示的帧561-L)；以及用于照明效果的多视点数据中时间上最接近的现有帧(例如，帧562a)。具体地，表演者视频照明效果渲染单元291在参考数据中搜索与用于实况动作视频的多视点数据的帧561-L类似的数据，并且用作为反映舞台艺术照明效果的数据的数据代替帧561-L。该处理是所谓的模板匹配技术，并且通常针对每个局部区域执行。另外，在一些情况下在代替时执行变形，并且可以应用各种几何变换处理，例如仿射变换。此外，作为搜索时使用的成本函数，可以使用表示图像相似性的各种指数(绝对差之和(SAD)、平方差之和(SSD)、归一化互相关(NCC)和零均值归一化互相关(ZNCC))。

同时，类似于上述方式，虚拟2D视频照明效果渲染单元290对图20中下两行所描绘的数据(用于照明效果的多视点数据和用于虚拟2D视频的多视点数据)执行帧插值处理和照明效果反映纹理的生成。

通过上面提及的处理，可以生成反映有关反射、皮肤光泽、皮肤光亮等的照明效果的纹理，并且渲染表演者视频或虚拟2D视频，使得其反映照明效果。因此，可以向观众提供反映接近实际音乐会中的效果的舞台艺术照明效果的视频。

<<5.硬件配置示例>>

接下来，参照图21说明根据本公开内容的实施方式的信息处理装置的硬件配置示例。上面提及的由观众信息输出系统1、表演者信息输入/输出系统2和表演者视频显示系统3执行的处理可以由一个或更多个信息处理装置执行。图21是描绘根据本公开内容的实施方式的信息处理装置900的硬件配置示例的框图，该信息处理装置实现观众信息输出系统1、表演者信息输入/输出系统2或表演者视频显示系统3。注意，信息处理装置900不一定要具有图21中描绘的整个硬件配置。另外，图21中描绘的硬件配置的一部分可以不存在于观众信息输出系统1、表演者信息输入/输出系统2或表演者视频显示系统3中。

如图21所描绘的，信息处理装置900包括CPU(中央处理单元)901、ROM(只读存储器)903和RAM(随机存取存储器)905。另外，信息处理装置900可以包括主机总线907、桥接器909、外部总线911、接口913、输入设备915、输出设备917、存储设备919、驱动器921、连接端口923和通信设备925。信息处理装置900可以代替CPU 901或与CPU 901一起具有如被称为GPU(图形处理单元)、DSP(数字信号处理器)或ASIC(专用集成电路)的处理电路的处理电路。

CPU 901用作计算处理设备和控制设备，并且根据记录在ROM 903、RAM 905、存储设备919或可移除记录介质927上的各种程序来控制信息处理装置900中的整体操作或部分操作。ROM 903存储CPU 901要使用的程序、计算参数等。RAM 905临时存储要在CPU 901进行的执行中使用的程序、在执行期间适当改变的参数等。CPU 901、ROM 903和RAM 905通过包括诸如CPU总线的内部总线的主机总线907互连。此外，主机总线907经由桥接器909连接至诸如PCI(外围部件互连/接口)总线的外部总线911。

例如，输入设备915是诸如要由用户操纵的按钮的设备。输入设备915可以包括鼠标、键盘、触摸面板、开关、杠杆等。另外，输入设备915可以包括检测用户的声音的麦克风。例如，输入设备915可以是使用红外线或其他无线电波的远程控制设备，或者可以是支持信息处理装置900的操纵的诸如移动电话的外部连接的设备929。输入设备915包括输入控制电路，该输入控制电路基于用户输入的信息生成输入信号，并且将输入信号输出至CPU901。用户通过操纵输入设备915向信息处理装置900输入各种类型的数据或给出关于处理操作的指令。

另外，输入设备915可以包括图像捕获设备和传感器。例如，图像捕获设备是这样的设备：其通过使用诸如CCD(电荷耦合器件)或CMOS(互补金属氧化物半导体)的图像捕获元件和用于控制被摄体的图像在图像捕获元件上的形成的诸如透镜的各种构件来捕获真实空间的图像，并且生成捕获图像。图像捕获设备可以是捕获静态图像的设备，或者可以是捕获视频的设备。

例如，传感器是各种传感器，例如距离测量传感器、加速度传感器、陀螺仪传感器、地磁传感器、振动传感器、光学传感器或声音传感器。例如，传感器获取关于信息处理装置900本身的状态例如信息处理装置900的壳体的姿态的信息，以及关于信息处理装置900的周围环境例如信息处理装置900周围的亮度和噪声的信息。另外，传感器可以包括GPS(全球定位系统)传感器，其接收GPS信号并测量装置的纬度、经度和高度。

输出设备917包括可以在视觉上或听觉上向用户通知获取的信息的设备。例如，输出设备917可以是诸如LCD(液晶显示器)或有机EL(电致发光)显示器的显示设备、诸如扬声器或耳机的声音输出设备等。另外，输出设备917可以包括PDP(等离子显示面板)、投影仪、全息图、打印机设备等。输出设备917将通过由信息处理装置900执行的处理而获得的结果输出作为文本、图像等的视频，作为诸如声音的听觉信息或声学信息等。另外，输出设备917可以包括使周围空间变亮的照明设备等。

存储设备919是被配置为信息处理装置900的存储部的示例的用于数据存储的设备。例如，存储设备919包括诸如HDD(硬盘驱动器)的磁存储设备、半导体存储设备、光学存储设备、磁光存储设备等。该存储设备919存储要由CPU 901执行的程序、各种类型的数据、从外部获取的各种类型的数据等。

驱动器921是用于诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质927的读取器/写入器，并且内置在信息处理装置900中或从外部附接至信息处理装置900。驱动器921读出记录在附接的可移除记录介质927上的信息，并且将该信息输出至RAM 905。另外，驱动器921在附接的可移除记录介质927上写入记录。

连接端口923是用于将设备直接连接至信息处理装置900的端口。例如，连接端口923可以是USB(通用串行总线)端口、IEEE 1394端口、SCSI(小型计算机系统接口)端口等。另外，连接端口923可以是RS-232C端口、光学音频端子、HDMI(注册商标)(高清晰度多媒体接口)端口等。通过将外部连接的设备929连接至连接端口923，可以在信息处理装置900与外部连接的设备929之间交换各种类型的数据。

例如，通信设备925是通信接口，该通信接口包括用于连接至网络931的通信设备等。例如，通信设备925可以是用于有线或无线LAN(局域网)、蓝牙(注册商标)、Wi-Fi(注册商标)或WUSB(无线USB)的通信卡等。另外，通信设备925可以是用于光通信的路由器、用于ADSL(非对称数字用户线)的路由器、用于各种类型的通信的调制解调器等。例如，通信设备925通过使用预定协议例如TCP/IP向因特网和其他通信设备发送信号等以及从因特网和其他通信设备接收信号等。另外，连接至通信设备925的网络931例如是通过有线或无线连接的网络，并且是因特网、家庭LAN、红外通信、无线电波通信、卫星通信等。

<<6.补充说明>>

尽管至此已经参照附图说明了本公开内容的优选实施方式，但是本技术不限于示例。明显地，本公开内容的技术领域的普通技术人员可以构思在权利要求中描述的技术思想的范围内的各种修改示例或校正示例，并且这些各种修改示例或校正示例当然被理解为属于本公开内容的技术范围。

例如，能够想到的观众示例还包括通过使用AR(增强现实)或MR(混合现实)观看和收听表演者的表演(音乐会等)的观众。

另外，尽管已经说明了定时控制单元24输出图像捕获定时信息和显示定时信息，但是本公开内容不限于此。例如，也可以使显示处理单元23在预定定时处执行显示ON/OFF控制，并且还可以向视频获取单元25给出在对应的预定定时处执行图像捕获ON/OFF控制的指令。另外，例如，相反，也可以使视频获取单元25在预定定时处执行图像捕获ON/OFF控制，同时还向显示处理单元23给出在对应的预定定时处执行显示ON/OFF控制的指令。

另外，尽管在获取用于生成3D模型的捕获图像时在图像捕获ON的定时处关闭显示，但是可以执行显示要用作绿色屏幕或蓝色屏幕的纯绿色或纯蓝色图像的控制(显示ON控制)。

另外，尽管在第一修改示例中描绘的具有生成虚拟2D视频的功能的系统在作为第二修改示例说明的示例中另外具有照明效果渲染功能，但是本公开内容不限于此，并且可以将第二修改示例中描绘的仅照明效果渲染功能加至参照图1说明的系统中。

另外，还可以创建一个或更多个计算机程序，所述一个或更多个计算机程序用于使诸如内置在上面提及的信息处理装置900中的CPU、ROM或RAM的硬件执行观众信息输出系统1、表演者信息输入/输出系统2或表演者视频显示系统3的功能。另外，还提供了计算机可读存储介质，该计算机可读存储介质上存储有一个或更多个计算机程序。

另外，本说明书中描述的优点呈现以仅用于解释或说明，而不是用于限制。即，连同上述优点一起或者代替上述优点，根据本公开内容的技术可以表现出根据本说明书的描述对于本领域技术人员而言明显的其他优点。

注意，本技术还可以采用以下配置。

(1)

一种信息处理装置，包括：

控制部，其执行利用用于获取关于被摄体的三维信息的多个图像捕获部进行图像捕获的控制，以及执行在位于所述被摄体周围的一个或更多个显示区域中显示从外部获取的图像的显示控制，其中，

所述控制部执行控制使得执行所述图像捕获时的定时和在所述显示区域中显示从所述外部获取的图像的定时彼此不同。

(2)

根据上述(1)所述的信息处理装置，其中，从所述外部获取的图像是捕获观众而得到的观众视频，所述观众观看和收听基于关于作为所述被摄体的表演者的三维信息生成的二维或三维表演者视频。

(3)

根据上述(1)所述的信息处理装置，其中，从所述外部获取的图像是虚拟空间视频，所述虚拟空间视频在其视场中包括观众化身，所述观众化身在虚拟空间中观看和收听基于关于作为所述被摄体的表演者的三维信息生成的二维或三维表演者视频。

(4)

根据上述(2)或(3)所述的信息处理装置，其中，所述控制部从利用位于所述被摄体周围的多个图像捕获部同时捕获的多个捕获图像中提取所述表演者的区域，生成所述表演者的三维模型，并且从所述三维模型生成自由视点的表演者视频。

(5)

根据上述(2)至(4)中任一项所述的信息处理装置，其中，所述控制部执行控制，以根据来自所述表演者的指令选择特定观众成员或特定观众化身，并且在所述显示区域中显示所选择的观众成员或观众化身的观众视频作为从所述外部获取的图像。

(6)

根据上述(1)至(5)中任一项所述的信息处理装置，其中，所述控制部生成显示定时信息，所述显示定时信息用于给出以下指令：执行在执行所述图像捕获的定时处不显示所述图像的控制，以及执行在不执行所述图像捕获的定时处显示所述图像的控制。

(7)

根据上述(1)至(6)中任一项所述的信息处理装置，其中，所述控制部生成图像捕获定时信息，所述图像捕获定时信息用于给出以下指令：执行在显示所述图像的定时处不执行所述图像捕获的控制，以及执行在不显示所述图像的定时处执行所述图像捕获的控制。

(8)

根据上述(1)至(7)中任一项所述的信息处理装置，其中，所述控制部以至少满足临界闪烁频率的显示速率执行从所述外部获取的图像的显示控制。

(9)

根据上述(1)至(8)中任一项所述的信息处理装置，其中，所述控制部执行控制使得在执行所述图像捕获的定时和在所述显示区域中显示从所述外部获取的图像的定时相同，以及执行控制使得这些定时彼此不同。

(10)

根据上述(9)所述的信息处理装置，其中，所述控制部执行控制以向观众侧发送作为所述被摄体的表演者的图像，所述表演者的图像是通过在显示所述图像的定时处执行所述图像捕获而获取的并且在背景上包括显示在所述显示区域中的所述图像。

(11)

根据上述(1)至(10)中任一项所述的信息处理装置，其中，

所述控制部执行

第一图像捕获控制以在不显示所述图像且不执行对所述被摄体的照明的定时处执行所述图像捕获，以及

第二图像捕获控制以在不显示所述图像且执行所述被摄体的照明的定时处执行所述图像捕获。

(12)

一种由处理器执行的信息处理方法，所述信息处理方法包括：

执行利用用于获取关于被摄体的三维信息的多个图像捕获部进行图像捕获的控制，以及执行在位于所述被摄体周围的一个或更多个显示区域中显示从外部获取的图像的显示控制；以及

执行控制使得执行所述图像捕获的定时和在所述显示区域中显示从所述外部获取的图像的定时彼此不同。

(13)

一种系统，包括：

多个图像捕获设备，其被布置在被摄体周围以获取关于所述被摄体的三维信息；

一个或更多个显示区域，其被布置在所述被摄体周围；以及

信息处理装置，其包括控制部，所述控制部执行利用所述多个图像捕获设备进行图像捕获的控制，以及执行在所述一个或更多个显示区域中显示从外部获取的图像的显示控制，其中，

所述控制部执行控制使得执行所述图像捕获的定时和在所述显示区域中显示从所述外部获取的图像的定时彼此不同。

附图标记列表

1：观众信息输出系统

2：表演者信息输入/输出系统

21：接收单元

22：分发显示数据生成单元

23：显示处理单元

24：定时控制单元

25：视频获取单元

26：表演者信息生成单元

27：发送单元

3：表演者视频显示系统

900：信息处理装置

Claims

1.一种信息处理装置，包括：

2.根据权利要求1所述的信息处理装置，其中，从所述外部获取的图像是捕获观众而得到的观众视频，所述观众观看和收听基于关于作为所述被摄体的表演者的三维信息生成的二维或三维表演者视频。

3.根据权利要求1所述的信息处理装置，其中，从所述外部获取的图像是虚拟空间视频，所述虚拟空间视频在其视场中包括观众化身，所述观众化身在虚拟空间中观看和收听基于关于作为所述被摄体的表演者的三维信息生成的二维或三维表演者视频。

4.根据权利要求2所述的信息处理装置，其中，所述控制部从利用位于所述被摄体周围的所述多个图像捕获部同时捕获的多个捕获图像中提取所述表演者的区域，生成所述表演者的三维模型，并且从所述三维模型生成自由视点的表演者视频。

5.根据权利要求2所述的信息处理装置，其中，所述控制部执行控制，以根据所述表演者的指令选择特定观众成员或特定观众化身，并且在所述显示区域中显示所选择的观众成员或观众化身的观众视频作为从所述外部获取的图像。

6.根据权利要求1所述的信息处理装置，其中，所述控制部生成显示定时信息，所述显示定时信息用于给出以下指令：执行在执行所述图像捕获的定时处不显示所述图像的控制，以及执行在不执行所述图像捕获的定时处显示所述图像的控制。

7.根据权利要求1所述的信息处理装置，其中，所述控制部生成图像捕获定时信息，所述图像捕获定时信息用于给出以下指令：执行在显示所述图像的定时处不执行所述图像捕获的控制，以及执行在不显示所述图像的定时处执行所述图像捕获的控制。

8.根据权利要求1所述的信息处理装置，其中，所述控制部以至少满足临界闪烁频率的显示速率执行从所述外部获取的图像的显示控制。

9.根据权利要求1所述的信息处理装置，其中，所述控制部执行控制使得执行所述图像捕获的定时和在所述显示区域中显示从所述外部获取的图像的定时相同，以及执行控制使得这些定时彼此不同。

10.根据权利要求9所述的信息处理装置，其中，所述控制部执行控制以向观众侧发送作为所述被摄体的表演者的图像，所述表演者的图像是通过在显示所述图像的定时处执行所述图像捕获而获取的并且在背景上包括显示在所述显示区域中的所述图像。

11.根据权利要求1所述的信息处理装置，其中，

所述控制部执行：

第二图像捕获控制以在不显示所述图像且执行对所述被摄体的照明的定时处执行所述图像捕获。

12.一种由处理器执行的信息处理方法，所述信息处理方法包括：

13.一种系统，包括：

一个或更多个显示区域，其被布置在所述被摄体周围；以及