CN106165415B

CN106165415B - 立体观看

Info

Publication number: CN106165415B
Application number: CN201580018687.4A
Authority: CN
Inventors: K·格隆霍姆; A·R·鲍德温
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-04-07
Filing date: 2015-03-19
Publication date: 2020-12-04
Anticipated expiration: 2035-03-19
Also published as: EP3206398B1; US20170118458A1; EP3206398A1; US10455221B2; EP3130143A4; PH12016501960A1; MX2016012988A; MX369376B; US20170163970A1; GB2525170A; EP3130143A1; RU2665872C2; EP3206397B1; RU2016141397A; GB201406201D0; CA2943856A1; AU2015245446A1; RU2016141397A3; US11575876B2; KR20160143746A

Abstract

本发明涉及创建和观看立体图像，例如也被称为3D视频的立体视频图像。使用具有交叠视场的至少三个相机捕获场景，使得场景的区域被至少三个相机覆盖。在观看器处，从多个相机中选择相机配对以创建立体相机配对，立体相机配对在用户的眼睛位于相机源的地方时最佳地匹配用户的眼睛的位置。也就是说，选择相机配对以使得由相机源创建的视差类似于用户的眼睛在该位置处会具有的视差。如果用户俯仰其头部，或者观看方位变化，则可以例如通过开关其他相机来形成新的配对。观看器设备因此通过针对理想的立体视差挑选用于每个图像的每个区域的最佳源来针对左右眼睛形成视频帧的图像。

Description

立体观看

背景技术

静止和移动图像的数字立体观看已经变得很普遍，并且用于观看3D(三维)电影的设备得到更广泛的普及。电影院基于使用专门的眼镜观看电影来提供3D电影，专门的眼镜确保对电影的每帧的左右眼的不同图像的观看。同样的方法已经被引入具有3D能力的播放器和电视机的家庭使用。实际上，电影包括同一场景的两个视图，一个用于左眼并且一个用于右眼。这些视图通过使用专门的立体相机捕获电影来产生，专门的立体相机直接产生适合立体观看的这一内容。当视图被呈现给两个眼睛时，人类视觉系统产生场景的3D视图。这一技术具有以下缺陷：观看区域(电影屏幕或电视机)仅占据视场的一部分，并且因此3D视图的体验受到限制。

为了获得更加理想的体验，已经创建了占据总体视场的更大区域的设备。存在可用的专门的立体观看护目镜(goggles)，立体观看护目镜应当被佩戴在头部，使得它们能够覆盖眼睛并且使用小屏幕和透镜布置来显示左右眼的图片。这样的技术也具有优点，其可以在小空间中使用，并且与通常用于3D观看的相当大的电视机相比较，甚至同时在移动。出于游戏的目的，存在与这样的立体眼镜兼容的游戏，并且这些游戏能够产生被捕获用于虚拟游戏世界的立体观看的两个图像，从而产生游戏场景的内部模型的3D视图。不同的图片根据模型被实时地渲染，并且因此这一方法需要计算能力，尤其是在游戏场景模型很复杂并且非常详细并且包含大量对象的情况下。

因此，需要能够实现立体观看、即观看3D图像的解决方案。

发明内容

现在，已经发明了一种改进的方法和实现该方法的技术设备，通过其能够缓解以上问题。本发明的各种方面包括方法、相机装置、服务器、客户端渲染器以及其中存储有计算机程序的计算机可读介质，其特征在于在独立权利要求中陈述的内容。从属权利要求中公开了本发明的各种实施例。

本发明涉及创建和观看立体图像、例如也被称为3D视频的立体视频图像。使用具有交叠的视场的至少三个相机源来捕获场景，使得场景的区域被至少三个相机覆盖。在观看器处，从多个相机中选择相机配对以创建在位于相机源的地方处时最佳地匹配用户眼镜的位置的立体相机配对。也就是说，选择相机配对使得由相机源创建的视差类似于用户的眼睛在该位置处将具有的视差。如果用户俯仰其头部，或者观看方位改变，则可以形成新的配对，例如通过开关其他相机。观看器设备然后通过挑选每个图像的每个区域的最佳源来形成针对左右眼镜的视频帧的图像以实现理想的场景视差。

提供了一种方法，包括：确定用户的头部方位以获得第一头部方位，基于所述第一头部方位来选择第一图像源和第二图像源，所述第一图像源和所述第二图像源形成立体图像源，通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像，确定所述用户的头部方位以获得第二头部方位，基于所述第二头部方位来选择所述第二图像源和第三图像源，所述第二图像源和所述第三图像源形成立体图像源，通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像。

提供了一种方法，包括：确定用户的头部方位以用于形成场景的立体视频序列；基于所述头部方位来选择第一图像源、第二图像源和第三图像源；以及通过使用所述第一图像源和所述第二图像源渲染针对所述用户的左眼的图像序列并且使用所述第一图像源和所述第三图像源渲染针对所述用户的右眼的图像序列来渲染所述立体视频序列，其中所述第一图像源被用于渲染在所述立体序列的每个立体帧中的针对所述用户的所述左眼和所述右眼的所述场景的不同区域。

提供了一种方法，包括：对多个源视频信号编码以用于立体观看，所述源视频信号包括来自多个相机源的视频数据，所述源视频信号包括有源场景区域信号和无源场景区域信号；向立体观看设备传输所述多个源视频信号以用于观看；执行所述编码和传输中的至少一项，使得在所传输的源视频信号中，所述有源场景区域信号比所述无源场景区域信号以更高的保真度被编码；所述有源场景区域信号和所述无源场景区域信号对应于用户的头部方位，使得所述有源场景区域信号对应于所述用户正在观看的场景区域并且所述无源场景区域信号对应于其他场景区域。

提供了一种用于创建立体观看图像数据的相机设备，包括：具有规则或者不规则设置的至少三个相机，所述至少三个相机相对于彼此按照使得所述至少三个相机中的相机的任意配对具有用于创建具有视差的立体图像的视差的方式被定位；所述至少三个相机具有交叠的视场以使得交叠区域被限定，针对所述交叠区域通过所述至少三个相机捕获每个部分。相机设备可以使得上述至少三个相机中的上述任何相机配对具有对应于人眼的视差的视差以用于创建立体图像。相机设备可以使得至少三个相机包括八个宽视场相机，八个宽视场相机基本上定位在虚拟立方体的角落处并且各自按照规则的方式具有基本上从虚拟立方体的中心点到角落的光轴方向，其中上述宽视场相机中的每个宽视场相机的视场至少是180度使得整个立体视图的每个部分被至少四个相机覆盖。

提供了一种装置，包括至少一个处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置成与至少一个处理器一起使得装置至少：确定用户的头部方位以获得第一头部方位，基于所述第一头部方位来选择第一图像源和第二图像源，所述第一图像源和所述第二图像源形成立体图像源，通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像，确定所述用户的头部方位以获得第二头部方位，基于所述第二头部方位来选择所述第二图像源和第三图像源，所述第二图像源和所述第三图像源形成立体图像源，通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像。

提供了一种装置，包括至少一个处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置成与至少一个处理器一起使得装置至少：确定用户的头部方位以用于形成场景的立体视频序列；基于所述头部方位来选择第一图像源、第二图像源和第三图像源；以及通过使用所述第一图像源和所述第二图像源渲染针对所述用户的左眼的图像序列并且使用所述第一图像源和所述第三图像源渲染针对所述用户的右眼的图像序列来渲染所述立体视频序列，其中所述第一图像源被用于渲染在所述立体序列的每个立体帧中的针对所述用户的所述左眼和所述右眼的所述场景的不同区域。

提供了一种装置，包括至少一个处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置成与至少一个处理器一起使得装置至少：对多个源视频信号编码以用于立体观看，所述源视频信号包括来自多个相机源的视频数据，所述源视频信号包括有源场景区域信号和无源场景区域信号；向立体观看设备传输所述多个源视频信号以用于观看；执行所述编码和传输中的至少一项，使得在所传输的源视频信号中，所述有源场景区域信号比所述无源场景区域信号以更高的保真度被编码；所述有源场景区域信号和所述无源场景区域信号对应于用户的头部方位，使得所述有源场景区域信号对应于所述用户正在观看的场景区域并且所述无源场景区域信号对应于其他场景区域。

提供了一种系统，包括至少一个处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置成与至少一个处理器一起使得系统至少：确定用户的头部方位以获得第一头部方位，基于所述第一头部方位来选择第一图像源和第二图像源，所述第一图像源和所述第二图像源形成立体图像源，通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像，确定所述用户的头部方位以获得第二头部方位，基于所述第二头部方位来选择所述第二图像源和第三图像源，所述第二图像源和所述第三图像源形成立体图像源，通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像。

提供了一种在非暂态计算机可读介质上体现的计算机程序产品，包括计算机程序代码，计算机程序代码被配置成当在至少一个处理器上执行时使得装置或系统：确定用户的头部方位以获得第一头部方位，基于所述第一头部方位来选择第一图像源和第二图像源，所述第一图像源和所述第二图像源形成立体图像源，通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像，确定所述用户的头部方位以获得第二头部方位，基于所述第二头部方位来选择所述第二图像源和第三图像源，所述第二图像源和所述第三图像源形成立体图像源，通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像。

提供了一种装置，包括：用于确定用户的头部方位以获得第一头部方位的装置，用于基于所述第一头部方位来选择第一图像源和第二图像源的装置，所述第一图像源和所述第二图像源形成立体图像源，用于通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像的装置，用于确定所述用户的头部方位以获得第二头部方位的装置，用于基于所述第二头部方位来选择所述第二图像源和第三图像源的装置，所述第二图像源和所述第三图像源形成立体图像源，用于通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像的装置。

提供了一种方法，包括：确定用户的头部方位以获得第一头部方位，基于所述第一头部方位来选择第一图像源和第二图像源，所述第一图像源和所述第二图像源形成立体图像源，通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像，确定所述用户的头部方位以获得第二头部方位，基于所述第二头部方位来选择所述第二图像源和第三图像源，所述第二图像源和所述第三图像源形成立体图像源，通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像，混合来自使用所述第一图像源形成的所述图像和使用所述第三图像源形成的所述图像的时间过渡。方法可以包括通过使用关于头部移动速度的信息来调节时间过渡的持续时间。

提供了一种方法，包括：确定用户的头部方位以获得第一头部方位，基于所述第一头部方位来选择第一图像源和第二图像源，所述第一图像源和所述第二图像源形成立体图像源，通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像，确定所述用户的头部方位以获得第二头部方位，基于所述第二头部方位来选择所述第二图像源和第三图像源，所述第二图像源和所述第三图像源形成立体图像源，通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像，确定所述图像源的源方位信息，以及使用所述源方位信息连同所述头部方位信息来选择所述图像源。

提供了一种方法，包括：确定用户的头部方位以获得第一头部方位，基于所述第一头部方位来选择第一图像源和第二图像源，所述第一图像源和所述第二图像源形成立体图像源，通过使用所述第一图像源渲染针对所述用户的一个眼睛的第一目标图像并且使用所述第二图像源渲染针对所述用户的另一眼睛的第二目标图像来渲染第一立体图像，确定所述用户的头部方位以获得第二头部方位，基于所述第二头部方位来选择所述第二图像源和第三图像源，所述第二图像源和所述第三图像源形成立体图像源，通过使用所述第二图像源渲染针对所述用户的一个眼睛的第三目标图像并且使用所述第三图像源渲染针对所述用户的另一眼睛的第四目标图像来渲染第二立体图像，其中形成所述第一图像源、所述第二图像源和所述第三图像源以作为使用虚拟相机的计算机设备的输出，以用于创建针对所述第一图像源、所述第二图像源和所述第三图像源的已渲染的合成图像。

附图说明

下面，将参考附图更加详细地描述本发明的各种实施例，在附图中：

图1a、1b、1c和1d示出了用于向用户形成立体图像的设置；

图2a示出了用于立体观看的系统和装置；

图2b示出了用于立体观看的立体相机设备；

图2c示出了用于立体观看的头戴式显示器；

图2d图示相机设备；

图3a、3b和3c图示从图像源来形成针对第一和第二眼睛的立体图像；

图4a、4b、4c、4d和4e图示在头部方位变化时用于立体图像的创建的图像源的选择；

图5a和5b示出了用于用作图像源的相机设备的示例；

图5c示出了用于用作音频源的麦克风设备的示例；

图6a、6b、6c和6d示出了用于立体观看的源和目的地坐标系的使用；

图7a和7b图示用于立体观看的图像源数据的传输；

图8图示用于创建用于立体观看的图像的虚拟现实模型中的合成图像源的使用；

图9a示出了用于形成图像以用于立体观看的方法的流程图；以及

图9b示出了用于传输图像以用于立体观看的方法的流程图。

具体实施方式

下面，将在使用3D眼镜的立体观看的上下文中描述本发明的若干实施例。然而，应当注意，本发明不限于任何具体的显示技术。实际上，不同的实施例在其中需要立体观看的任何环境、例如电影和电视中具有应用。另外，虽然描述使用某个相机设置作为图像源的示例，然而可以使用不同的相机设置和图像源布置。

图1a、1b、1c和1d示出了用于向用户形成立体图像的设置。在图1a中，示出了其中人使用两个眼睛E1和E2来观看两个球体A1和A2的情况。球体A1比球体A2更接近观看者，到第一眼睛E1的相应距离为L_E1,A1和L_E1,A2。不同的对象在其相应(x,y,z)坐标处驻留在空间中，相应(x,y,z)坐标由坐标系SZ、SY和SZ来定义。人眼之间的距离d₁₂平均可以接近62-64mm，并且根据人的不同而在55-74mm之间变化。这一距离被称为视差，人类视觉的立体视图基于该视差。观看方向(光轴)DIR1和DIR2通常基本上平行，有可能稍微偏离平行，并且定义眼镜的视场。用户的头部关于周围环境具有方位(头部方位)，该方位最容易地由在眼睛笔直向前看时眼睛的公共方向来定义。也就是说，头部方位表示头部关于用户所在场景的坐标系的偏航、俯仰和滚转。

在图1a的设置中，球体A1和A2在两个眼睛的视场中。眼睛与球体之间的中心点O₁₂在相同的线上。也就是说，从中心点，球体A2在球体A1后面。然而，每个眼睛从A1后面看到球体A2的部分，因为球体从任何眼睛来看没有在相同的视线上。

在图1b中示出了以下设置：其中眼睛已经用相机C1和C2代替，相机C1和C2被定位在图1a的眼睛所在的位置处。否则，设置的距离和方向相同。自然，图1b中的设置的目的是能够得到球体A1和A2的立体图像。通过图像捕获得到的两个图像是F_C1和F_C2。“左眼”图像F_C1示出了在球体A1的图像S_A1的左侧部分可见的球体A2的图像S_A2。“右眼”图像F_C2示出了在球体A1的图像S_A1的右侧部分可见的球体A2的图像S_A2。左右图像之间的这一差异被称为视差，并且该视差作为人类视觉系统用于确定深度信息并且创建场景的3D图像的基本机制，可以用于产生3D图像的错觉。

在图1c中，视差了这一3D错觉的产生。分别使用显示器D1和D2向眼睛E1和E2显示通过相机C1和C2捕获的图像F_C1和F_C2。通过人类视觉系统处理图像之间的视差使得能够产生对深度的理解。也就是说，当左眼看到在球体A1的图像S_A1的左侧的球体A2的图像S_A2时，并且相应地当右眼看到在右侧的A2的图像时，人类视觉系统产生以下理解：在三维世界中在球体V1后面存在球体V2。在此，需要理解，图像F_C1和F_C2也可以是合成的，即，由计算机创建。如果它们携带视差信息，则合成图像也可以被人类视觉系统视为是三维的。也就是说，可以形成计算机生成的图像的配对使得它们能够被用作立体图像。

图1d图示可以如何使用向眼睛显示立体图像的原理来创建具有三维错觉的3D电影或虚拟现实场景。使用立体相机捕获或者根据模型计算图形F_X1和F_X2，使得图形具有适当的视差。通过使用显示器D1和D2每秒向两个眼睛显示大量(例如30个)帧来使得左右眼之间的图像具有视差，人类视觉系统将产生移动的三维图像的认知。当相机被打开时，或者当用于计算合成图像的视图方向变化时，图像的变化产生以下错觉：视图的方向变化，也就是说观看者旋转。这一视图方向、即头部方位可以被确定为头部的真实方位，例如通过安装在头部上的方位检测器，或者通过控制设备、诸如游戏杆或鼠标被确定为虚拟方位，控制设备可以用于操纵视图的方向而没有用户实际上移动其头部。也就是说，术语“头部方位”可以用于指代用户头部的实际、物理方位及其变化，或者其可以用于指代由计算机程序或计算机输入设备确定的用户观看的虚拟方向。

图2a示出了用于立体观看、即用于3D视频和3D音频数字捕获和回放的系统和装置。系统的任务在于从具体的位置捕获充足的视觉和听觉信息，使得能够通过物理上位于不同位置的一个或多个观看者并且可选地在未来在稍后的时间来实现在该位置的体验或呈现的有说服力的再现。这样的再现需要能够被单个相机或麦克风捕获的更多信息，以便观看者能够使用其眼睛和耳朵确定场景内的对象的距离和位置。如在图1a到1d的上下文中解释的，为了创建具有视差的图像对，使用两个相机源。以类似的方式，为了使得人类听觉系统能够感测声音的方向，使用至少两个麦克风(通过记录两个音频信道来创建公知的立体声)。人类听觉系统可以检测提示，例如音频信号的定时差异中的提示，以检测声音的方向。

图2a的系统可以包括三个主要部分：图像源、服务器和渲染设备。视频捕获设备SRC1包括多个(例如8个)相机CAM1、CAM2、……、CAMN，这些相机具有交叠的视场，使得能够从至少两个相机来捕获在视频捕获设备周围的视图的区域。设备SRC1可以包括用于捕获源自于不同位置的音频的定时和相位差异的多个麦克风。设备可以包括高分辨率方位传感器，使得能够检测和记录多个相机的方位(视图的方向)。设备SRC1包括或在功能上连接至计算机处理器PROC1和存储器MEM1，存储器包括用于控制捕获设备的计算机程序代码PROGR1代码。由设备捕获的图像流可以存储在存储器设备MEM2上用于在另一设备、例如观看器中使用，和/或可以使用通信接口COMM1传输给服务器。

替选地或者除了创建图像流的视频捕获设备SRC1、或者多个这样的视频捕获设备SRC1，系统中可以存在合成图像的一个或多个源SRC2。这样的合成图像的源可以使用虚拟世界的计算机模型来计算其传输的各种图像流。例如，源SRC2可以计算对应于位于虚拟观看位置处的N个虚拟相机的N个视频流。当这样的视频流的合成集合用于观看时，观看者可以看到三维虚拟世界，如先前针对图1d解释的。设备SRC2包括或者在功能上连接至计算机处理器PROC2和存储器MEM2，存储器包括用于控制合成源设备SRC2的计算机程序PROGR2代码。由设备捕获的图像流可以存储在存储器设备MEM5(例如存储卡CARD1)中用于在另一设备、例如观看器中使用，或者使用通信接口COMM2传输给服务器或观看器。

除了捕获设备SRC1，还可以存在存储、处理和数据流服务网络。例如，可以存在服务器SERV或者多个服务器，服务器存储来自捕获设备SRC1或计算设备SRC2的输出。设备包括或者在功能上连接至计算机处理器PROC3和存储器MEM3，存储器包括用于控制服务器的计算机程序PROGR3代码。服务器可以通过有线或无线网络连接或者这两种连接而连接至源SRC1和/或SRC2，并且通过通信接口COMM3连接至观看器设备VIEWER1和VIEWER2。

为了观看所捕获的或所创建的视频内容，可以有一个或多个观看器设备VIEWER1和VIEWER2。这些设备可以具有渲染模块和显示模块，或者这些功能可以在单个设备中组合。设备可以包括或者在功能上连接至计算机处理器PROC4和存储器MEM4，存储器包括用于控制观看器设备的计算机程序PROGR4代码。观看器(回放)设备可以包括用于从服务器接收视频数据流并且对视频数据流解码的数据流接收器。数据流可以通过通信接口COMM4通过网络连接来接收，或者可以从存储器设备MEM6、如存储卡CARD2来接收。观看器设备可以具有用于将数据处理成适合观看的格式的图形处理单元，如通过图1c和1d描述的。观看器VIEWER1包括用于观看渲染后的立体视频序列的高分辨率立体图像头戴式显示器。头戴式设备可以具有方位传感器DET1和立体音频头戴式耳机。观看器VIEWER2包括通过3D技术启用的显示器(用于显示立体视频)，并且渲染设备可以具有连接至其的头部方位检测器DET2。这些设备(SRC1、SRC2、SERVER、RENDERER、VIEWER1、VIEWER2)中的每个设备可以是计算机或便携式计算设备，或者可以连接至计算机或便携式计算设备。这样的渲染设备可以具有用于执行根据在本文本中描述的各种示例的方法的计算机程序代码。

图2b示出了用于立体观看的相机设备。相机包括被配置成用于创建左右眼图像的相机对并且可以被布置成这样的相机对的三个或多个相机。相机之间的距离可以对应于人眼之间的一般距离。相机可以被布置成使得它们能够在视场中具有明显的交叠。例如，可以使用180度的宽角度镜头，并且可以存在3、4、5、6、7、8、9、10、12、16或20个相机。相机可以在整个视图球体上规则地或者不规则地间隔开，或者可以仅覆盖整个球体的部分。例如，可以有三个相机布置成三角形，并且它们具有朝着三角形的一个边的不同的视图方向，使得所有三个相机覆盖在视图方向的中央的交叠区域。作为另一示例，存在8个具有宽角度镜头的相机，并且这些相机规则地布置在虚拟立方体的角落处并且覆盖整个球体使得整个或者基本上整个球体在所有方向上被至少3或4个相机覆盖。在图2b中，示出了三个立体相机对。

图2c示出了用于立体观看的头戴式显示器。该头戴式显示器包括用于显示左右眼图像的两个屏幕部分或者两个屏幕DISP1和DISP2。显示器接近眼睛，并且因此镜头用于使得图形易于观看并且用于扩展图像以尽可能多地覆盖眼睛的视场。设备附接至用户的头部使得其保持就位，即使用户转动头部。设备可以具有用于确定头部的头部运动和方向的方位检测模块ORDET1。在此应当注意，在这一类型的设备中，可以进行对头部运动的跟踪，但是由于显示器覆盖视场的大的区域，所以眼睛运动方向不是必须的。头部方位可以与用户头部的真实、物理方位相关，并且其可以通过用于确定用户头部的真实方位的传感器来跟踪。替选地或者附加地，头部方位可以与用户视图反向的虚拟方位相关，通过计算机程序或者通过计算机输入设备、诸如游戏杆来控制。也就是说，用户可以能够使用输入设备来改变所确定的头部方位，或者计算机程序可以改变视图方向(例如在游戏中，代替或者除了真实头部方位之外，游戏程序可以控制所确定的头部方位)。

图2d图示了相机设备CAM1。相机设备具有相机检测器CAMDET1，其包括用于感测撞击传感器元件的光的强度的多个传感器元件。相机设备具有镜头OBJ1(或者多个镜头的镜头布置)，镜头被定位成使得撞击传感器元件的光行进通过镜头到达传感器元件。相机检测器CAMDET1具有标称中央点CP1，其是多个传感器元件的中点，例如对于矩形传感器，其是对角的交叉点。镜头具有标称中央点PP1，并且位于例如镜头的对称轴上。相机的方位的方向由从相机传感器的中央点CP1和镜头的中央点PP1经过的半直线来定义。

以上描述的系统可以如下来工作。首先使用捕获设备记录时间同步的视频、音频和方位数据。这可以包括如以上描述的多个同时发生的视频和音频流。然后将这些数据立刻或者稍后传输给存储和处理网络，用于将其处理和变换成适合随后递送给回放设备的格式。变换可以包括音频和视频数据的后处理步骤以便改善质量和/或减小数据的量同时在期望的水平保持量。最后，每个回放设备从网络接收数据流，并且将其渲染成原始位置的立体观看再现，其可以由用户使用头戴式显示器和头戴式耳机来体验。

利用如下面描述的创建用于观看的立体图像的新颖方式，用户可以能够将其头部转向多个方向，并且回放设备能够创建对应于该具体的方位的场景的高频(例如每秒60帧)立体图像和音频视图，如从原始记录的位置处呈现的那样。

图3a、3b和3c图示通过使用动态源选择和动态拼接(stitching)位置从图像源形成用于第一和第二眼睛的立体图像。为了创建具体头部方位的立体视图，使用来自至少2个不同相机的图像数据。通常，单个相机不能够覆盖整个视场。因此，根据本解决方案，可以使用多个相机通过将来自不同相机的图像的部分拼接在一起来创建用于立体观看的两个图像。通过拼接实现的图像产生使得图像具有适当的视差，使得能够创建3D视图。下面将对其进行解释。

为了使用最佳图像源，使用相机和眼睛位置的模型。相机可以在相机的空间中具有位置，并且眼睛的位置被投影到这一空间中使得眼睛呈现在这些相机之间。采用理想视差(眼睛之间的距离)。例如，在其中所有相机位于球面上并且规则地间隔的8相机规则设置中，可以将眼睛也投影到球面上。解决方案首先选择距离每个眼睛最近的相机。头戴式显示器可以具有每个眼睛的大的视场，使得不存在覆盖眼睛的整个视图的单个图像(来自一个相机)。在这种情况下，必须使用已知的将图像沿着线“拼接”在一起的技术，根据多个图像的部分来创建视图，多个图像几乎包括被拼接在一起的两个图像中的相同的内容。图3a示出了用于立体观看的两个显示器。来自相机IS2、IS3和IS6的图像数据与左眼显示器的图像被放置在一起。来自相机IS1、IS3和IS8的图像数据与右眼显示器的图像被放置在一起。注意，在本示例中使用相同的源用于左眼和右眼图像，但是这样做使得视图的相同区域在两个眼睛中没有被相机IS3覆盖。这确保了整个视图上的适当的视差——也就是说，在视图中的每个位置处，左右眼图像之间存在视差。

拼接点针对每个头部方位动态地变化，以最大化在从距离眼睛位置最近的相机得到的视图的中央区域周围的区域。同时，小心以确保不同的相机用于不同眼睛的两个图像中的视图的相同区域。在图3b中，对应于视图中的相同区域的区域PXA1和PXA2分别从不同的相机IS1和IS2得到。两个相机间隔开，因此区域PXA1和PXA2示出视差的效果，从而在人类虚拟系统中产生3D错觉。也避免了将拼接线(其可以更加可见)STITCH1和STITCH2定位在视图的中央，因为最近的相机通常覆盖中央周围的区域。这一方法产生要取决于头部方位而用于创建视图的某个区域的图像的相机对的动态选择。可以使用所检测到的头部方位针对每个像素和每个帧进行选择。

使用确保所有拼接区域具有正确的立体视差的算法来进行拼接。在图3c中，左右图像被拼接在一起，使得场景中的对象在来自不同相机源的区域上继续。例如，场景中的最近的立方体从一个相机到左眼图像并且从两个不同相机到右眼视图得到，并且被拼接在一起。对于用于左右眼的立方体的所有部分使用不同相机，这产生视差(立方体的右侧在右眼图像中更加可见)。

相同的相机图像可以部分用在左右眼中但是没有用于相同的区域。例如，左眼视图的右侧可以从相机IS3来拼接，并且右眼的左侧可以从相同的相机IS3来拼接，只要这些视图区域没有交叠并且使用不同相机(IS1和IS2)用于渲染另一眼睛中的这些区域。换言之，相同的相机源(在图3a中为IS3)可以用在针对左眼图像和右眼图像的立体观看中。相反，在传统的立体观看中，左侧相机被用于左侧图像，并且右侧相机被用于右侧图像。因此，本方法允许更加完全地使用源数据。这可以用在视频数据的捕获中，从而有不同相机在不同时刻捕获的图像(以某个采样速率，如30帧每秒)用于创建用于观看的左右立体图像。这可以按照如下方式来进行：该方式使得在某个时刻捕获的相同的相机图像用于创建左眼图像的部分以及右眼图像的部分，左右眼图像一起用于形成用于观看的立体视频流的一个立体帧。在不同的时刻，不同的相机用于创建视频的左眼帧的部分和右眼帧的部分。这使得能够更加高效地使用所捕获的视频数据。

图4a和4b图示用于针对不同的头部方位选择最近的相机的方法。作为示例(参见图4a)，所有的源(相机)布置在中央点周围使得其位置形成八面体并且其到中央点的距离相等。这对应于具有规则相机间间隔的8相机设备。源在3d空间中具有特定x、y和z坐标。源直接指向远离中央点(源的方位在图2d的上下文中解释)。头戴式设备报告观看者的头部的滚转、俯仰和偏航，并且这些可以用于变换源的坐标以便相对于头部坐标系来对其进行渲染。替选地，眼睛的坐标可以变换到源的坐标系。另外，源的坐标系可以变换到归一化坐标系，并且头部坐标系也可以变换到这一相同的归一化坐标系。因此，两个源和眼睛关于彼此被定位在相同的模型中。

换言之，使用头部方位在坐标系中确定对应于用户的上述眼睛的第一和第二虚拟眼睛的位置，并且然后基于关于坐标系中的图像源位置的虚拟眼睛的位置来选择图像源。

以角度γ(被称为俯仰角)绕x轴的坐标的旋转变换R_x的示例通过旋转矩阵来定义

以类似的方式，可以形成绕不同轴的旋转R_y(针对偏航)和R_z(针对滚转)。作为一般旋转，可以形成三个旋转的矩阵乘法，R＝R_x R_y R_z。这一旋转矩阵然后可以用于根据v₂＝Rv₁来倍增第一坐标系中的任何矢量以在目的地坐标系中获得矢量。

下面给出对源和眼睛坐标进行变换的示例。所有矢量是三维空间中的矢量并且被描述为(x,y,z)。原点为(0,0,0)。所有图像源具有由关于原点的偏航、俯仰和滚转定义的方位。

对于每个源，计算位置矢量：

–创建针对源的位置矢量并且使用(0,0,1)来对其进行初始化

–得到单位变换矩阵

–将矩阵乘以另一矩阵，以将坐标绕y轴旋转偏航的量

–将矩阵乘以另一矩阵，以将坐标绕x轴旋转俯仰的量

–将矩阵乘以另一矩阵，以将坐标绕z轴旋转滚转的量

–使用矩阵通过矩阵乘法对位置矢量进行变换，矩阵在乘法中从左侧来应用。

对于眼睛，计算位置矢量：

–创建针对眼睛的位置矢量并且使用(0,0,1)对其进行初始化

–取视图矩阵，其用于根据观看方向(头部方位)来渲染源并且将其反转。(为了说明如何反转视图矩阵，例如，当观看方向绕y轴渲染10度时，源需要绕y轴旋转-10度。以类似的方式，如果某人在对象处观看并且向右旋转其头部，则在您的视图中的对象向左移动。因此，向成像的眼睛位置应用的旋转可以作为向源/视图应用的旋转的反转。)

–根据仿真的眼睛视差绕y轴(在头部坐标系中指向上的轴)旋转反转后的视图矩阵(如下面描述的)。

–根据所得到的矩阵来变换位置矢量，其中矩阵被应用预矢量。

–计算眼睛位置与源之间的距离并且选择最短距离(参见以下)。

眼睛(左眼或右眼)的成像位置被定位成到中央点的距离与相机到中央点的距离相等，并且根据观看者的头戴式设备与捕获设备的方位相比较的相对方位绕所有的x、y和z轴、绕中央点旋转。如图4a和4b中所示，这导致在面部中间的虚假中间眼睛MEYE的位置(对应于图1a的O₁₂)。然后绕视图的y轴(与观看者的头部对准，从下巴到头的顶部)旋转观看者的虚假中间眼睛的位置，以得到虚拟的左眼LEYE或右眼REYE的位置。为了仿真人眼的视差，取决于视图针对左眼还是右眼，朝着对应方向进行这一旋转。虚拟的左右眼之间的角度可以在80度到120度之间，例如大致100度。大于90度的角度可以防止挑选相同的相机用于两个眼睛的相同的区域，并且小于110度的角度可以防止挑选具有太大相机间距离的相机。

源(例如相机)根据源与虚拟眼睛之间的距离被排序，并且视图被渲染使得能够从源中分别挑选以下像素：A)覆盖该像素，B)在与满足条件A的所有源相比时到虚拟眼睛的距离最小。换言之，确定用户的第一眼睛的图像的像素的图像源是与对应于上述第一眼睛的虚拟眼睛满足接近准则的接近图像源(例如是最接近的源)，其中接近图像源捕获对应于像素的场景部分。如果接近图像源没有捕获对应于像素的场景部分，则选择用户的第一眼睛的图像的像素的图像源作为另一源，而非对应于上述第一眼睛的上述虚拟眼睛的接近图像源。

图4c和4d图示用于在头部方位变化时创建立体图像的图像源的选择。像素从根据以下挑选的源被渲染：

1.列出覆盖当前像素的所有源

2.从列表上的所有源中挑选在人的头部被定位在源中央点所在位置并且根据头戴式显示器的(观看者的头部)方位被旋转的情况下最佳地匹配人通过该特定眼睛能够看到的内容的源。

3.调节成像的人眼视差以确保源对于左右眼而言不同，并且所挑选的源具有尽可能接近人眼的视差(例如64mm)。这一调节的量取决于可用源及其位置。调节也可以事先进行。如果发现第一眼睛的最接近的相机，例如比第一眼睛在俯仰方面低10度，则最接近的第二眼睛也可以旋转10度以俯仰更低。这可以进行以至少在一些情况下避免俯仰相机之间的视差线(产生滚转)，其可能由于另一眼睛挑选俯仰更高的相机。

可以利用查找表将虚拟位置预先映射到最接近的相机列表，并且映射可以具有例如1mm的粒度，在其范围内，所有的位置共享相同的列表。当渲染要显示的图像的像素时，可以采用模板缓存使得来自最接近的相机的像素首先被渲染并且在模板缓存中被标记为被渲染。然后，执行模板测试以确定能够从下一最接近的相机来渲染的非渲染像素，来自下一最接近的相机的像素被渲染并且标记，以此类推，直到整个图像被渲染。也就是说，渲染眼睛的图像的区域使得区域对应于图形源，其中区域按照图像源到在图像源坐标系中对应于上述眼睛的虚拟眼睛的接近的顺序被渲染。

为了创建从一个相机区域到另一相机区域的平滑的“接缝”(空间过渡)，可以如下使用阿尔法通道渲染来渲染相机的边缘区域。对于每个像素，根据源像素的源颜色值来计算像素的(红-绿-蓝)颜色值，例如通过插值或者通过使用最接近的源像素的颜色值。对于多数像素，阿尔法值(不透明性)为1。对于在源的边缘的像素，阿尔法值可以被设置为小于1。这表示将来自下一交叠源的颜色值和较早计算的颜色值混合，以创建更加平滑的拼接。对于边缘区域，渲染因此可以从覆盖像素的最远相机开始。也就是说，可以通过混合区域的边缘区域来组合图像的区域。

在上文中，已经描述了两种可选优化，即模板缓存的使用和阿尔法通道平滑。以这一方式，可以使用图形处理器的功能。

图4c、4d和4e图示用于在头部方位变化时创建立体图像的图像源的选择。在图4c中，确定用户的头部方位以获得第一头部方位。然后，基于第一头部方位选择第一图像源(IS7)和第二图像源(IS2)，使得第一和第二图像源形成立体图像源，如以上已经解释的。在场景中，可以理解对应于场景的中央细节的虚拟区域。在左右眼图像中，存在表示场景区域的对应的像素区域(PXA1和PXA2)。使用第一图像源(IS7)确定对应于场景的第一区域的第一像素区域(PXA1)的颜色值，并且将这一第一像素区域的颜色值形成为左眼图像。使用第二图像源(IS2)形成对应于场景的相同区域的第二像素区域(PXA2)的颜色值，并且将这一第二像素区域的颜色值形成为右眼图像。

当用户转动其头部(存在用俯仰、偏航和滚转值来表示的旋转)，再次确定用户的头部方位以获得第二头部方位。这可以发生，例如使得头戴式显示器中存在头部运动检测器。为了形成对应于第一场景区域的图像区域，在此选择图像源，如图4d所示。因为头部已经转动，所以基于第二头部方位选择第二图像源(IS2)和现在的第三图像源(IS8)，第二和第三图像源形成立体图像源。如以上解释地进行这一操作。使用第三图像源(IS8)形成对应于场景的第一区域的第三像素区域(PXA3)的颜色值，第三像素区域(PXA3)的颜色值被形成为用于向左眼显示的第三图像。使用第二图像源(IS2)形成对应于场景的相同的第一区域的第四像素区域(PXA4)的颜色值，第四像素区域(PXA4)的颜色值被形成为用于向右眼显示的第四图像。

以这一方式，所检测或确定的头部方位影响用于形成针对眼睛的图像的图像源的选择。如果用户转动其头部或者相机视图变化，则用于创建场景的区域的立体图像的图像源(相机)对可以从一个时刻到另一时刻发生变化。这是因为，相同的图像源并非在所有时间是(虚拟)眼睛的最接近的图像源。

在基于来自多个相机的输入再现针对特定视图方位的立体图像时，关键是在相机之间具有视差。然而，已经注意到，当图像区域的相机对由于观看角度(头部方位)的变化而变化时，这一视差可以在两个连续的帧之间的图像区域(以及视差)中引起跳跃。这一跳跃可能妨碍观看器并且降低再现的保真度。在图4c中，从相机IS1、IS3和IS7来渲染左侧图像，并且从相机IS2、IS3和IS6来渲染右侧图像。当用户向左侧俯仰其头部时，图像变得自然地逆时针旋转。然而，眼睛关于源的位置也变化。在图4d中，针对左侧图像已经改变一个相机(IS7)(变为IS8)。来自IS7的图像稍微不同于来自IS8的图像，并且因此在用户俯仰其头部时，相机变化可以在图像的下部部分中引起视差的变化。

本解决方案中使用的技术是在两个相机对之间的多个已渲染帧期间交叉混合(cross-blend)，以根据观看方向的角速度来调节交叉混合的定时和持续时间。目的在于在观看方向快速变化时做出交叉混合的跳跃，因此已经存在自然运动模糊并且用户没有关注任何具体的点。交叉混合的持续时间也可以根据角速度来调节使得在缓慢运动时，在更长的时间周期上进行交叉混合，并且在更快的运动中，交叉混合的持续时间更短。这一方法减少了从一个相机对到另一相机对的跳跃的可视性。可以通过受影响的图像区域值的加权求和来实现交叉混合。例如，如图4e所示，可以将要混合的区域选择为IS7和IS8的组合区域。区域可以被选择为仅IS8或者仅IS7的区域。这一方法已经被评估为能够降低从一个相机对到另一相机对的跳跃的值得注意的程度，尤其是在使用头戴式显示器来观看时。换言之，为了改善视频图像质量，可以通过从使用第一图像源创建的图像到使用另一图像源创建的图像混合来创建时间过渡。可以通过使用关于头部运动速度、例如角速度的信息来调节时间过渡混合的持续时间。

在源的变化中，可以应用变化的滞后。滞后意味着一旦由于确定第二源比第一源更接近虚拟眼睛而应用从第一源到第二源的源的变化，则没有如同第一变化一样容易地做出回到第一源的变化。也就是说，如果头部方位正好在变化之前返回到该方位，则返回到第一源的变化不受影响。返回到第一源的变化需要头部方向上的更大的变化，使得第一源比第二源清楚地更接近虚拟眼睛。这样的滞后使用的可以用于防止由第一和第二源几乎接近虚拟眼睛的方位处相机的来回快速切换而引起的闪烁。

需要理解，交叉混合也可以发生以使得整个区域的图像源发生变化，这导致整个区域被交叉混合。

图5a和5b示出了用作图像源的相机设备的示例。为了创建完整360度立体全景，需要从两个位置来拍摄视图的每个方向。一个用于左眼并且一个用于右眼。在视频全景的情况下，这些图像必须同时拍摄以保持眼睛彼此同步。由于一个相机不能在物理上覆盖整个360度视图，至少没有被另一相机模糊，需要多个相机以形成完整360度全景。然而，附加的相机增加了系统的成本和大小，并且增加了更多的要处理的数据流。这一问题在将相机安装在球体或理想固体形状布置上以得到更加竖直的视场时变得甚至更加显著。然而，甚至通过例如在球体或者理想固体、诸如八面体或十二面体上布置多个相机对，相机对将不实现眼睛视图之间的自由角度视差。眼睛之间的视差被固定到对中的各个相机的位置，也就是说，在垂直于相机对的方向上，可以实现无视差。这在使用头戴式显示器观看立体内容的情况下是一个问题，头戴式显示器允许视差角度绕z轴的自由旋转。

对于多个相机覆盖捕获设备周围的每个点两次的要求将需要捕获设备中有大量的相机。本解决方案中使用的新颖的技术是利用视场等于或大于180度(半球)的镜头并且在捕获设备周围布置具有小心地选择的布置的相机。这样的布置在图5a中示出，其中相机定位在虚拟立方体的角落处，这些相机具有基本上指向远离立方体的中央点的方位DIR_CAM1、DIR_CAM2、……、DIR_CAMN。

可以使用视图镜头的交叠的超宽场，以使得相机能够用作相机对的左眼视图和另一相机对的右眼视图二者。这将所需要的相机的量减为一半。作为意外的优点，以这一方式减少相机数目增加了立体观看质量，因为其还使得能够在所有相机中任意地挑选左眼和右眼相机，只要它们具有彼此足够交叠的视图。使用具有不同数目的相机和不同相机布置、诸如球体和理想固体的这一技术使得能够挑选最接近的匹配相机用于每个眼睛(如早先解释的)以实现眼睛之间的竖直视差。这尤其在使用头戴式显示器来观看内容的情况下是有益的。所描述的相机设置连同早先描述的拼接技术可以使得能够以相机设备的更大的保真度和更小的代价来创建立体观看。

宽视场允许取决于当前视图方向选择来自一个相机的图像数据作为用于不同眼睛的源数据，从而最小化所需要的相机数目。如果设备不需要以上和以下高图像质量，或者没有视图方位从垂直于环轴俯仰，则间隔可以在一个轴周围的5个或多个相机的环中。

如果在所有方向上需要高质量图像和自由视图倾斜，则必须使用理想固体形状，不管是立方体(具有6个相机)、八面体(具有8个相机)或者十二面体(具有12个相机)。其中，八面体或者立方体的角落(图5a)是良好的选择，因为其提供最小化相机数目同时最大化可用于不同视图方位的相机对组合数目之间的良好折衷。图5b中示出了具有8个相机的实际相机设备。相机设备具有185度宽角度镜头，使得相机的总覆盖范围大于4个全球体。这表示，场景的所有点被至少4个相机覆盖。相机具有指向远离设备中央的方位DIR_CAM1、DIR_CAM2、……、DIR_CAMN。

甚至在更少相机的情况下，也可以实现这样的过覆盖(over-coverage)，例如通过6个相机和相同的185度镜头，可以实现3x覆盖。当渲染场景并且针对某个像素选择最接近的相机时，该过覆盖意味着通常至少有3个相机覆盖点并且因此可以形成用于该点的至少3个不同相机对。因此，取决于视图方位(头部方位)，可以更加容易地找到具有良好视差的相机对。

相机设备可以包括至少三个相机，这些相机为规则或者不规则设置并且按照如下方式关于彼此定位：该方式使得上述至少三个相机中的任何相机对具有用于创建具有视差的立体图像的视差。至少三个相机具有交叠的视场使得能够定义其每个部分被上述至少三个相机捕获的交叠区域。至少三个相机中的任何相机对可以具有对应于用于创建立体图像的人眼的视差的视差。例如，相机对之间的视差(距离)可以在5.0cm到12.0cm之间，例如大致6.5cm。至少三个相机可以具有不同的光轴方向。交叠区域可以具有简单连接的拓扑结构，表示其形成没有孔、或者基本上没有孔的连续表面使得能够在整个观看表面上或者至少针对交叠区域的大部分获得视差。上述至少三个相机中的每个相机的视场可以近似对应于半球。相机设备可以包括三个相机，三个相机布置成三角形设置，从而任何相机对之间的光轴方向形成小于90度的角度。至少三个相机可以包括被定位成基本上在虚拟立方体的角落处的八个宽场相机，八个宽场相机中的每个具有基本上从虚拟立方体的中央点按照规则方式到角落的光轴方向，其中上述宽场相机中的每个相机的视场是至少180度，使得整个球体视图的每个部分被至少四个相机覆盖(参见图5b)。

图5c示出了用作音频源的麦克风设备的示例。多个麦克风MIC1、MIC2、MICN可以规则地或者不规则地定位在设备的中央周围。例如，可以有8到20个麦克风定位在虚拟球体的表面上。为了增加场景再现的体验存在，可以生成令人信服的立体音频信号。捕获设备可以包括在多个位置并且从设备周围的所有方向捕获声场的多个麦克风。类似于视频渲染，这些源流然后用于将(例如使用头部相关的传递函数)合成音频信号渲染成类似于在耳朵位于场景中由观看者的头部的位置表示的位置处时听到的音频信号。

可以使用多种技术而根据多个麦克风的记录来创建匹配虚拟耳朵的位置的声音流。一种技术是，选择最接近每个虚拟耳朵的单个原始声音源。然而，这给出受限于原始麦克风数目的空间运动分辨率。更好的技术是，使用众所周知的音频波束成形算法来组合来自2个或多个麦克风集合的记录并且创建对应于捕获设备周围的空间的多个会聚的波瓣的合成的中间音频流。在渲染期间，然后使用对应于匹配当前用户头部方位的虚拟头部中的相对于虚拟耳朵的其当前位置的头部相关的传递函数(HRTF)对这些中间流每个滤波，并且然后将其相加在一起以给出更加紧密地匹配耳朵在与虚拟耳朵相同的位置处听到的流的最终仿真流。头部相关传递函数(HRTF)是表示耳朵如何听到来自空间中的点的声音的传递函数。可以使用两个头部相关传递函数(用于左右耳朵)来形成呈现为来自于某个方向和距离的立体声音。可以简单地对来自多个不同方向和距离的多个声音源求和以从这源获得组合的立体源。

以下描述的用于视频的方位校正也适用于音频，以便在观看者头部不移动的情况下可选地消除捕获设备的运动。

利用头戴式显示器观看的3D内容的沉浸式体验来自于用户如何能够通过转动其头部来四处观看并且根据头部方位正确地看到内容。如果捕获设备在捕获的同时移动(例如在安装到水肺潜水员的头盔或者树的分支时)，运动独立于观看者的头部方位地影响用户的观看角度。这可以被注意到以中断沉浸并且使得用户难以专注于某个点或观看角度。

图6a和6b示出将源和目的地坐标系用于立体观看。这里使用的技术是，记录与交叠视频数据同步的捕获设备方位，并且使用方位信息校正向用户呈现的视图的方位——以在回放期间有效地消除捕获设备的旋转——使得用户能够控制观看方向而非捕获设备。如果观看者取而代之想要体验捕获设备的原始运动，则可以停用校正。如果观看者想要体验原始运动的不太极端的版本——可以通过滤波器动态地施加校正，使得能够跟随原始运动但是更加缓慢地并且在稍微偏离原始方位的情况下。

图6a和6b图示相机设备的旋转以及相机坐标系(源坐标系)的旋转。当然，每个相机的视图和方位也发生变化，并且因此即使观看者与之前保持在相同的方位，他将看到向左侧的旋转。如果同时，如图6c和6d所示，用户想要将其头部旋转到左侧，则所得到的视图会甚至更加严重的转向左侧，从而有可能将视图方向改变180度。然而，如果相机设备的运动被消除，则用户的头部运动(参见图6c和6d)可以控制视图。在戴水肺的潜水员的示例中，观看者可以挑选要观看的对象而不管潜水员已经看到的内容。也就是说，与用户的头部方位一起使用图像源的方位以确定要向用户显示的图像。

图7a和7b图示用于立体观看的图像源数据的传输。本申请中呈现的立体观看的系统可以采用多视图视频编码用于向观看者传输源视频数据。也就是说，服务器可以具有编码器，或者视频数据在服务器处可以是编码形式，使得视频数据中的冗余用于带宽的减小。然而，由于由宽角度镜头引起的大量失真，编码效率可能降低。在这样的情况下，不同的源信号V1-V8可以组合成如图7a中的一个视频信号，并且作为一个编码视频流来传输。观看设备然后可以挑选其渲染左右眼图像所需要的像素值。

可能需要传输(和/或在观看者处解码)针对整个场景的视频数据，因为在回放期间，观看者需要立刻响应于观看者头部的角度运动并且从正确的角度来渲染内容。为了能够进行这一操作，当用户在任何时间转动其头部时，需要从服务器向观看器设备传输整个360度全景视频。这需要传输大量数据，其消耗带宽并且需要解码能力。

本申请中使用的技术是通过视图信令向服务器报告当前和预测的未来的观看角度，并且使得服务器能够根据观看角度适配编码参数。服务器可以传送数据使得可见区域(有源图像源)使用更多可用带宽并且具有更好质量，同时基于头部运动(无源图像源)使用带宽的更少部分(和更低质量)用于当前不可见或者期望近期不可见的区域。实际上，这将意味着，当用户快速地明显地转动其头部时，内容首先具有较差的质量，但是然后一旦服务器接收到新的观看角度并且相应地适应流则变得更好。优点可以是，当头部运动较小时，图像质量与场景上相同的静态带宽分配的情况相比可以得到改善。这在图7b中图示，其中有源源信号V1、V2、V5和V7比源信号(无源图像源)V3、V4、V6和V8的其余部分以更好的质量编码。

在广播(具有多个观看者)的情况下，服务器可以广播多个流，其中每个流具有极大地压缩的球面全景的不同区域，而非具有其中每个被等同地压缩的一个流。观看设备然后可以根据观看角度来选择要解码和观看哪个流。这样，服务器不需要知道各个观看者的观看角度并且可以向任何数目的接收者广播内容。

为了节省带宽，可以处理图像数据使得球面视图的部分以较低的质量被传送。这可以在服务器处进行，例如作为预处理步骤，使得传输时间的计算要求更小。

在观看者与服务器之间的一对一连接(即，非广播)的情况下，选择以较低质量传送的视图的部分使得其在当前观看角度中不可见。客户端可以向服务器连续地报告回其观看角度。同时，客户端也可以发送回关于其想要接收的流的质量和带宽的其他提示。

在广播(一对多连接)的情况下，服务器可以广播多个流，其中视图的不同部分以较低质量传送，并且客户端然后选择其解码和观看的流，使得较低质量区域在具有其当前观看角度的视图外部。

降低球面视图的某个区域的质量的一些方法包括例如：

–降低空间分辨率和/或缩小图像数据；

–降低颜色编码分辨率或比特深度；

–降低帧速率；

–增加压缩；和/或

–丢弃像素数据的附加源并且仅保持像素的一个源，以有效地得到单视场而非立体视场的区域。

所有这些可以单独地、组合地、或者甚至同时地进行，例如基于每个源通过将流分为两个或多个单独的流，这些单独的流是高质量流或者低质量流并且每个流包含一个或多个源。

这些方法在甚至源在相同的流中被传送的情况下也可以应用。例如，在八面体布置中包含8个源的流可以通过保持完全覆盖当前观看方向的4个源(或者更多)完整来明显地减小带宽，并且从其余4个源中，完全丢弃2个源，并且缩小其余两个源。另外，服务器可以仅每隔一个帧更新这两个低质量源，使得压缩算法能够非常轻微地压缩未改变的序列帧并且还有可能设置压缩的感兴趣的区域以仅覆盖4个完整的源。通过这样做，服务器能够管理以保持所有可见源处于高质量，并且通过使得不可见的区域单视场、低分辨率、低帧速率和更加压缩，显著地减小所需要的带宽。这将在用户快速改变观看方向的情况下对用户可见，但是然后客户端适应新的观看角度并且选择具有高质量的新的观看角度的流，或者在一对一流送的情况下，服务器适配流以针对新的观看角度提供高质量数据并且针对被隐藏的源提供低质量。

可以使用图形处理单元从场景的内部模型渲染合成3D内容用于交互式回放。这样的方法例如在计算机游戏中很普遍。然而，这样的内容的复杂性和理想性通常受到可用的本地处理能力的量的限制，其远小于可用于非现场渲染的量。

然而，预先渲染具有计算机模拟的3D内容的3D电影在传统上通过被编码成立体图像对的固定视点来递送。最佳地，观看者可以手动选择其喜好对，然而在电影环境中，仅一个对可用。这些方法没有本地渲染的内容的交互式潜力。

图8图示将虚拟现实模型中的合成视频源用于创建用于立体观看的图像。本申请中使用的技术是，使用先前描述的相同的方法用于捕获的真实世界内容，以渲染、分配和回放使用计算机渲染的虚拟内容。在这种情况下，如图8所示，包括多个相机的虚拟相机设备VCAMS定位在电影的虚拟世界中，并且发生的动作通过计算机来捕获到对应于虚拟相机设备的虚拟相机的视频流中。换言之，可以与传统3D电影相同的方式合成地生成被递送给播放器的内容，但是包括覆盖虚拟观看器周围的整个球体至少两倍的多个相机视图(多于2个)，并且多个音频流使得能够针对每个观看方向创建理想的音频信号。实际上，虚拟世界的内部的三维(移动)模型用于计算图像源图像。渲染不同的对象OBJ1、OBJ2和OBJ3得到由相机捕获的图像，并且针对每个相机执行计算。例如，在四面体的角落处的360度虚拟相机提供与早先描述的物理8相机设备相似的交叠量。捕获全部场景但是在成对进行时具有视差属性的4个相机实现合成世界的自由角度立体观看。也可以使用8个半球相机，或者任何其他实际数目。虚拟相机没有按照与实际相机相同的方式彼此妨碍，因为虚拟相机可以在虚拟世界中不可见。因此，可以匹配虚拟相机的数目使得观看器设备可以执行图像的渲染。

在观看设备处，可以解码宽角度合成源图像，并且可以通过以下方式来创建合成世界的立体图像：选择左右眼源信号并且在需要拼接的情况下有可能通过早先描述的拼接方法来创建图像。结果是，这一内容的每个观看者可以在电影的虚拟世界内部，能够在所有方向上观看，甚至在电影暂停时。

图9a示出了用于形成用于立体观看的图像的方法的流程图。如早先描述的，首先在阶段910中确定用户的头部方位以获得第一头部方位。在915，基于这一头部方位，选择第一图像源和第二图像源。这些图像源使得它们能够形成立体图像源，也就是说，根据这两个源的图像创建的立体图像可以产生在人类虚拟系统中对三维图片的理解。在920，通过使用第一图像源渲染用户的一个眼睛的第一目标图像并且使用第二图像源渲染用户的另一眼睛的第二目标图像来创建第一立体图像。图像源可以足以用于整个第一和第二目标图像，或者可以使用其他图像源，如早先描述的。在930，在此确定用户的头部方位以获得第二头部方位。在935，基于第二头部方位选择相同的第二图像源和新的第三图像源。这些图像源使得它们能够形成立体图像源，也就是说，从这两个源的图像创建的立体图像可以在人类虚拟系统中产生对三维图片的理解。然后，在940，通过使用第二图像源渲染用户的一个眼睛的第三目标图像并且使用第三图像源渲染用户的另一眼睛的第四目标图像来创建第二立体图像。

图9b示出了用于传输用于立体观看的图像的方法的流程图。

本发明的各种实施例可以在驻留在存储器中并且引起相关装置执行本发明的计算机程序代码的帮助下来实现。例如，设备可以包括用于处理、接收和传输数据的电路系统和电子器件、存储器中的计算机程序代码、以及在运行计算机程序代码时引起设备执行实施例的特征的处理器。另外，网络设备、如服务器可以包括用于处理、接收和传输数据的电路系统和电子器件、存储器中的计算机程序代码、以及在运行计算机程序代码时引起设备执行实施例的特征的处理器。

很清楚，本发明不仅限于以上呈现的实施例，相反，其可以在所附权利要求的范围内被修改。

Claims

1.一种用于图像处理的装置，包括至少一个处理器、包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置成与所述至少一个处理器一起使得所述装置至少：

-对来自一个或多个有源图像源的有源源视频信号和来自一个或多个无源图像源的无源源视频信号二者进行解码，所述有源源视频信号和无源源视频信号已经根据用户的观看角度以不同方式被编码，其中所述一个或多个有源图像源所捕获的可见区域相比于所述一个或多个无源图像源所捕获的当前不可见的一个或多个区域，以更高的质量被编码，

-确定用户的头部方位以获得第一头部方位，

-基于所述第一头部方位，从所述一个或多个有源图像源和所述一个或多个无源图像源选择第一图像源、第二图像源，所述第一图像源和所述第二图像源形成立体图像源，

-使用来自所述第一图像源的经解码的视频信号渲染针对所述用户的一个眼睛的第一目标图像并且使用来自所述第二图像源的经解码的视频信号渲染针对所述用户的另一眼睛的第二目标图像，

-确定所述用户的头部方位以获得第二头部方位，

-基于所述第二头部方位来选择所述第二图像源和所述第三图像源，所述第二图像源和所述第三图像源形成立体图像源，

-使用来自所述第二图像源的经解码的视频信号渲染针对所述用户的一个眼睛的第三目标图像并且使用来自所述第三图像源的经解码的视频信号渲染针对所述用户的另一眼睛的第四目标图像，

将来自所述第四图像源的图像的至少一部分与所述第一目标图像和所述第二目标图像中的至少一个进行拼接；以及

将来自所述第四图像源的图像的至少一部分与所述第三目标图像和所述第四目标图像中的至少一个进行拼接。

2.根据权利要求1所述的装置，其中所述装置被进一步使得：

-使用所述第一图像源来形成与场景的第一区域对应的第一像素区域的颜色值，所述第一像素区域的所述颜色值用于形成所述第一目标图像以用于向第一眼睛显示，

-使用所述第二图像源来形成与场景的所述第一区域对应的第二像素区域的颜色值，所述第二像素区域的所述颜色值用于形成所述第二目标图像以用于向第二眼睛显示，

-使用所述第三图像源来形成与场景的所述第一区域对应的第三像素区域的颜色值，所述第三像素区域的所述颜色值用于形成所述第四目标图像以用于向所述第二眼睛显示，

-使用所述第二图像源来形成与场景的所述第一区域对应的第四像素区域的颜色值，所述第四像素区域的所述颜色值用于形成所述第三目标图像以用于向所述第一眼睛显示。

3.根据权利要求1所述的装置，其中所述装置被进一步使得：

-使用所述头部方位在坐标系中确定对应于所述用户的所述眼睛的第一虚拟眼睛的位置和第二虚拟眼睛的位置，

-关于所述坐标系中的所述一个或多个有源图像源位置和所述一个或多个无源图像源位置，基于所述虚拟眼睛的所述位置来选择所述第一图像源、所述第二图像源和所述第三图像源。

4.根据权利要求3所述的装置，其中所述装置被进一步使得：

-将所述第一图像源、所述第二图像源和所述第三图像源中的、针对所述用户的第一眼睛的图像的像素的图像源确定为针对与所述第一眼睛对应的虚拟眼睛的接近图像源，所述接近图像源满足接近准则，其中所述接近图像源捕获与所述像素对应的场景部分，以及

-将所述第一图像源、所述第二图像源和所述第三图像源中的、针对所述用户的所述第一眼睛的图像的像素的图像源确定为另一源而非针对与所述第一眼睛对应的所述虚拟眼睛的所述接近图像源，其中所述接近图像源没有捕获与所述像素对应的所述场景部分。

5.根据权利要求1所述的装置，其中所述装置被进一步使得：

-渲染针对眼睛的图像的区域以使得所述区域对应于所述第一图像源、所述第二图像源和所述第三图像源，其中按照在图像源坐标系中所述第一图像源、所述第二图像源和所述第三图像源与对应于所述眼睛的虚拟眼睛的接近度的顺序来渲染所述区域。

6.根据权利要求5所述的装置，其中通过使用图像拼接技术在所述图像的所述区域的边缘将所述图像的所述区域组合在一起。

7.根据权利要求6所述的装置，其中通过混合所述区域的所述边缘区域来组合所述图像的所述区域。

8.根据权利要求1所述的装置，其中所述装置被进一步使得：

-混合来自使用所述第一图像源形成的所述图像和使用所述第三图像源形成的所述图像的时间过渡。

9.根据权利要求8所述的装置，其中所述装置被进一步使得：

-通过使用关于头部移动速度的信息来调节所述时间过渡混合的持续时间。

10.根据权利要求1所述的装置，其中所述装置被进一步使得：

-使用所述头部方位信息来确定针对左耳的音频信息和针对右耳的音频信息，以使用头部相关传递函数来修改来自两个或更多音频源的音频信息。

11.根据权利要求1所述的装置，其中所述装置被进一步使得：

-确定所述一个或多个有源图像源和所述一个或多个无源图像源的源方位信息，以及

-使用所述源方位信息连同所述头部方位信息来选择所述第一图像源、所述第二图像源和所述第三图像源。

12.根据权利要求10所述的装置，其中所述装置被进一步使得：

-确定所述音频源的源方位信息，以及

-使用所述源方位信息连同所述头部方位信息来修改来自所述音频源的音频信息。

13.根据权利要求1到12中的任一项所述的装置，其中所述第一图像源、所述第二图像源和所述第三图像源是真实世界相机。

14.根据权利要求1到12中的任一项所述的装置，其中所述第一图像源、所述第二图像源和所述第三图像源被形成为使用虚拟相机的计算机设备的输出，以用于产生已渲染的合成图像。

15.根据权利要求1到12中的任一项所述的装置，其中所述头部方位与所述用户头部的物理方位相关。

16.根据权利要求1到12中的任一项所述的装置，其中所述头部方位与由计算机程序或者由计算机输入设备控制的用户的观看方向的虚拟方位有关。

17.根据权利要求1到12中的任一项所述的装置，其中所述立体图像被用于形成立体视频序列。

18.一种用于图像处理的装置，包括至少一个处理器、包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置成与所述至少一个处理器一起使得所述装置至少：

-对来自一个或多个有源图像源的有源源视频信号和来自一个或多个无源图像源的无源源视频信号二者进行解码，所述有源源视频信号和无源源视频信号已经根据用户的观看角度以不同方式被编码，其中所述一个或多个有源图像源所捕获的可见区域相比于所述一个或多个无源图像源所捕获的当前不可见的一个或多个区域，以更高的质量被编码；

-确定用户的头部方位以用于形成场景的立体视频序列；

-基于所述头部方位，从所述一个或多个有源图像源和所述一个或多个无源图像源选择第一图像源、第二图像源和第三图像源；以及

-通过使用来自所述第一图像源和所述第二图像源的经解码的视频信号渲染针对所述用户的左眼的图像序列并且使用来自所述第二图像源和所述第三图像源的经解码的视频信号渲染针对所述用户的右眼的图像序列来渲染所述立体视频序列，其中所述第二图像源被用于渲染在所述视频序列的每个立体帧中的针对所述用户的所述左眼和所述右眼的所述场景的不同区域，其中所述立体视频序列通过以下而被渲染：使用来自所述第一图像源的经解码的视频信号渲染针对所述用户的所述左眼的第一目标图像并且使用来自所述第二图像源的经解码的视频信号渲染针对所述用户的所述右眼的第二目标图像，以及使用来自所述第二图像源的经解码的视频信号渲染针对所述用户的所述左眼的第三目标图像并且使用来自所述第三图像源的经解码的视频信号渲染针对所述用户的所述右眼的第四目标图像；

19.一种用于图像处理的方法，包括：

-确定用户的头部方位以获得第一头部方位，

-确定所述用户的头部方位以获得第二头部方位，

20.一种用于图像处理的方法，包括：

-确定用户的头部方位以用于形成场景的立体视频序列；