CN108141578B

CN108141578B - 呈现相机

Info

Publication number: CN108141578B
Application number: CN201680056044.3A
Authority: CN
Inventors: 杰瓦特·耶尔利
Original assignee: TMRW Foundation IP and Holding SARL
Current assignee: TMRW Foundation IP and Holding SARL
Priority date: 2015-09-30
Filing date: 2016-09-30
Publication date: 2022-04-05
Anticipated expiration: 2036-09-30
Also published as: EP3151554A1; WO2017054925A1; US20180288393A1; US11196972B2; EP3357237A1; CN108141578A

Abstract

公开了一种装置，该装置包括媒体接口，被配置为提供多个媒体流，使用至少一个相机阵列中的相机来捕获每个媒体流；输入接口，被配置为接收与输出装置相关联的装置位置；和处理器，被配置为从所述多个媒体流生成适应装置位置的输出流。

Description

呈现相机

技术领域

本公开涉及媒体流的生成，其考虑到与输出装置有关的观看参数。特别地，本发明可以涉及包括相机阵列和用于渲染这种媒体流的个别输出装置的相机装置。

背景技术

相机通常允许捕获具有或不具有音频数据的视频数据，该视频数据随后可以被显示在各自输出装置上。例如，摄像机可以捕获场景的视频，该场景可以被呈现在显示器或屏幕上，诸如在电视机上。然而，这种捕获的媒体通常以线性的方式被呈现给用户，并且不允许为该用户对已显示的媒体做进一步调整。

为了提供更加沉浸式的体验，已经提出了提供甚至接近360°的大观看角度的相机系统。对于录制的影片，可以根据期望的方向或观看者正在观看的方向来选择录制的像素的子集，并且可以将所选择的子集扭曲为可用于用户的输出装置的正确的显示图像。因此，体验该录制的影片的用户可以朝各个方向看，这直接影响所显示的内容。

提供录制内容的更加沉浸式的体验的其他方法涉及分别为观看者的双眼提供媒体流的立体相机系统，以便能够感知纵深并估计录制场景内的对象的距离。然而，录制媒体的呈现和对真实世界的感知之间仍然存在差异。

因此，本公开的一个目的是能够生成和呈现更类似真实世界的感知的所捕获的媒体。

发明内容

上述问题通过根据独立权利要求的装置，相机装置，输出装置和方法来解决。优选实施例在从属权利要求中限定。

根据本公开的一个方面，一种装置包括，媒体接口，被配置为提供多个媒体流，使用至少一个相机阵列中的相机来捕获每个媒体流；输入接口，被配置为接收与输出装置相关联的观看位置；和处理器，被配置为从该多个媒体流生成适应该观看位置的输出流。

可以是本地装置或远程装置的，诸如服务器的媒体装置，使用多个媒体流来生成输出流，以便反映与输出装置相关联的当前观看位置，该当前观看位置可以由操作输出装置的用户或观看者明确地或隐含地设置。例如，用户可以移动自己和/或输出装置，并且输出流会适应该运动，使得运动视差被反映在输出流中。观看位置可以对应于装置位置。然而，观看位置也可以反映用户的位置、用户的头部的位置或用户的眼睛的位置。观看位置也可以基于用户相对于装置的位置来确定。

人类和动物主动地使用运动视差，在运动视差中，移动头部来获得略微不同的视点，以便估计场景中物体的距离和深度。例如，当观看者移动时，观看前景物体并移动其头部的人会体验到前景物体的位置相对于背景偏移。即使在毫米级的非常小的头部位移的情况下，也可以清楚地注意到运动视差效应。要保持人的头部非常静止、运动视差效应完全消失是困难的。运动视差效应通常被人类和动物的视觉感知系统用作重建三维环境的进一步的信息源。因此，通过使输出流连续地适应当前观看位置，能够实现媒体的更加沉浸式的体验。

多个媒体流由至少一个相机阵列的多个相机捕获。相机可以间隔开，使得它们可以从生成当前装置位置的输出流期间可以考虑的不同视点捕获场景。本领域的技术人员将理解，这不能通过单个相机来实现，即使该单个相机具有非常大的观看角度，因为这样的单个相机不能提供来自不同视点的媒体流，而这些不同视点则是反映观看位置的变化所需要的。由单台相机捕获的媒体可能只允许相对于观看朝向进行适应。根据本公开的媒体装置能够基于考虑到运动视差效应的观看位置来生成捕获场景的输出流，并由此生成捕获场景的逼真体验。

媒体流可以包括具有或不具有音频的捕获的视频数据。因此，相机阵列可以包括用于声音获取的元件，该元件可以被布置在相控阵列中，以便确定所录制的声音的空间起源。

在优选实施例中，该输入接口进一步配置为，接收与该输出装置相关联的观看朝向，并且该处理器被进一步配置为，生成适应该观看位置和该观看朝向的输出流。该至少一个相机阵列中的相机可以从不同视点捕获场景到单个媒体流中，并且该相机可以被进一步布置为覆盖大观看角度，这可以使观看者能够环顾四周，从不同的视角观看该捕获的场景以及四处移动，从不同的视点感知场景。这导致了在大观看角度和逼真运动视差的基础上的捕获内容的进一步改进的沉浸式体验。观看位置和观看朝向可以参考观看者身体的位置和朝向，观看者头部的位置和朝向，观看者眼睛的位置和朝向或甚至观看者单个眼睛的位置和朝向，这些位置和朝向可与输出装置的当前装置位置和装置朝向有关。例如，观看朝向可以能够确定观看者的双眼或单独每只眼睛的凝视，这种确定可以用于确定输出装置上的位置或者用户正在看的捕获场景内的位置，以便基于观看朝向进一步调节输出流的生成，诸如，应用中心渲染优化。这可以进一步使得输出流适应观看者的凝视。

优选地，输出流可以被提供为立体流。立体流可以为观看者的左眼和右眼提供单独的输出数据。分别用于左眼和右眼的单独的流的分开可以通过硬件手段来实现，诸如为左眼和右眼使用单独的显示器，例如使用头戴式显示器，或者通过使用滤波技术，滤波技术中，用于左眼和右眼的两个流在显示装置上同时显示或以交错方式显示，并且这两个流通过单独的滤光器被滤光，诸如用于单个眼睛的滤色器或偏振滤光器，或通过使用快门眼镜等。此外，可以使用自动立体显示器。因此，用户可以体验到所捕获场景的完整的立体表现，并且可以通过改变输出装置的朝向和位置来进一步适应观看位置和观看朝向，例如，通过相对于他或她的头移动平板电脑，或者通过移动和转动头部来直接移动和转动诸如头戴式显示器或各自眼镜的附接到头部的装置。这导致了对捕获场景沉浸式的和逼真的体验，这体验中考虑到立体视觉，运动视差和大观看角度。分开的左眼流和右眼流可以从阵列中以适当距离间隔开的不同的单独的相机获得。

优选地，至少一个相机阵列中的至少一些相机可以被配置为获取所捕获场景的深度信息。非限制性实例是飞行时间相机，结构化轻型相机，激光探测与测量扫描仪，雷达和声纳。这些相机可以以点云的形式提供场景的X，Y，Z信息。深度信息可能具有较低的分辨率。随后可以将获得的深度信息与使用来自至少一个相机阵列的视觉数据的例如立体视觉，三角测量，光流，SLAM等的深度确定算法相结合，以精确地构建场景的深度图。

在又一个实施例中，为了生成输出流，处理器被配置为，基于观看位置和观看朝向来确定多个媒体流中的至少一个媒体流，并且基于确定的至少一个媒体流，使用观看位置和观看朝向来生成输出流。优选地，观看位置和观看朝向可以限定相对于输出装置的(观看)视角，并且可以根据该视角确定至少一个媒体流。例如，

通过转动和移动他的头部，用户可以调节关于捕获场景的观看位置和观看朝向，从而限定不同的视角。可以考虑视角的参数，诸如观看位置，观看朝向和/或观看角度，以确定已经使用至少一个相机阵列中具有合适的视野或合适的相机视角的相机所捕获的多个媒体流中的至少一个媒体流，该合适的视野或合适的相机视角诸如是合适的相机位置，相机朝向和/或相机的观看角度中的至少一个。

在优选实施例中，两个以上的媒体流被确定，并且根据观看位置和观看朝向，通过处理上述两个以上的媒体流来生成输出流。媒体流的处理可以包括对两个以上的媒体流进行扭曲(Warping)，拼接(Stitching)和内插(Interpolating)中的一种或多种。处理可以是基于输入流数据的更复杂的重建处理。例如，处理可以依赖于诸如拼接，扭曲，内插和外推(extrapolation)的标准图像重建技术的组合。例如，基于可用媒体流，在没有或有限(视觉)信息可用的区域可能需要外推，以便填充媒体数据中的空白或空洞。然而，应当理解，重建处理不局限于计算机视觉技术，并且可以进一步考虑关于场景的空间数据，该空间数据可以包括重建的3D几何信息，关于材料的参数以及对应于捕获场景中的光流的光场等以任何组合的一个或多个。空间数据可以用于利用3D渲染技术来重新渲染捕获的场景。优选地，在一个或多个实施例中，输出流的生成可以包括使用深度学习技术和/或可用于从不同视点得到的同一场景的媒体流的一系列图像或帧中重建输出流的图像或帧的神经网络。即使至少一部分场景未被完全捕获或捕获全部细节，这也可以实现输出流的生成和复杂重建。优选地，根据输出装置的视角，可以将两个以上的媒体流确定为n个最近媒体流。因此，可以将包括观看位置，观看朝向和/或观看角度的输出装置的视角与至少一个相机阵列中的每个相机的视野或视角进行比较，以便确定两个以上的最接近输出装置视角的媒体流。基于每个相机的视角的(朝向或位置)偏移和输出装置的视角，可以计算可用于处理各自输出流的加权参数。

在一个实施例中，可以进一步处理多个媒体流，使得输出流的质量被聚焦到诸如基于已确定的凝视方向，或者在帧的中心的观看者实际正在观看的位置。此外，可以对媒体流进行处理，以便实现预测运动重建或者预外推(futurepolate)媒体流，预外推媒体流包括预测观看者接下来要观看哪里以及预先重建该区域。此外，可以应用考虑眼睛的聚焦距离(例如由瞳孔的相对位置和朝向来确定)的额外的处理，以进一步提高输出流的质量和保真度。非限制性实例为对焦距离依赖移位和视差效应，以及场景的可以确定观看者将会失焦的那些部分的离焦模糊。

根据本公开，在整个公开中可以使用术语视角或观看视角来确定观看位置，观看朝向，观看角度和/或视角或观看视角两者的视野，捕获相机，输出装置以及用户或观看者相关的，诸如观看者的身体的位置和朝向，观看者的头部的位置和朝向，观看者的眼睛的位置和朝向或甚至观看者的单个眼睛的位置和朝向。

在一个实施例中，每个相机根据相机参数来捕获各自的媒体流，相机参数包括至少一个阵列中的相机位置和朝向。相机参数还可以包括关于水平和垂直方向上的观看角度的信息。因此，相机参数可以用于计算由相机捕获的场景的视角或视野。因此，可以将相机参数与定义输出装置视角的观看朝向和观看位置进行比较，以便确定一个或多个合适的提供各个捕获的媒体流的相机，以生成反映输出装置的视角的输出流。

优选地，每个相机阵列被配置为捕获场景，阵列中的每个相机被配置为根据相机参数捕获场景的至少一部分。

优选地，多个媒体流可以由多个相机阵列提供，其中每个阵列根据特定的角度和偏移被朝向并与另一个阵列间隔开，以便覆盖所捕获场景的更大的观看角度和/或从不同的相机视角提供场景的可能部分冗余的捕获数据，以改善结果输出流的质量。

在又一实施例中，根据输出装置的视角以及相机在媒体流中所捕获场景的部分，将两个以上的媒体流确定为n个最近媒体流。因此，用于确定由相机捕获的该场景的一部分的相机参数可以与输出装置的视角进行比较，以便建立用于生成输出流的多个最合适的媒体流。

媒体流可以是预先录制的媒体流。优选地，该多个媒体流的至少一部分是预先录制的媒体流。因此，根据本公开的实施例的方法允许捕获例如在影片或电影中的多个场景或一场景，该场景可以用正确的运动视差来再现，而不需要任何进一步的或随后的场景的捕获或录制。

在又一实施例中，多个媒体流可以是实时媒体流。优选地，该多个媒体流中的至少一部分是实时媒体流。该实时媒体流可以由相机阵列录制并被直接传输用于远程观看。观看者可以通过影响与输出装置有关的观看位置(和/或朝向)来调节输出流。与预先录制的媒体流类似，实时媒体流不需要场景的进一步捕获或录制来实现正确的运动视差。

在又一实施例中，处理器还被配置为将输出流与至少一个计算机图形对象组合。

优选地，该装置可以进一步包括可通信地耦接到处理器的引擎，其中该引擎被配置为根据观看位置和/或朝向提供至少一个计算机图形对象。由于媒体流从不同的视角捕获场景，因此可以使用光流技术对该媒体流相对于场景中的对象的深度进行进一步分析。深度信息能够将三维计算机图形对象渲染到可以考虑周围物体的深度的输出流中。此外，场景的深度信息的可用性可以通过摄影测量来重建3D集。可以从视频数据重建3D模型，从而从场景中提取用于3D模型的纹理和材料。深度信息可以进一步用于增强在雾或霾中获得的视频的图像对比度。

优选地，至少一个相机阵列中的至少一个相机可以包括用于捕获所捕获场景中的深度的元件。提供深度信息的相机的非限制性实例为，飞行时间相机，结构化轻型相机，激光探测与测量扫描仪，雷达和声纳。与普通相机不同，这些相机直接提供场景的X，Y，Z值。深度信息可以进一步用于将计算机生成的对象嵌入到输出流内，从而，生成计算机生成的媒体和捕获的媒体的真实构图，来从场景重建3D模型，增强在雾或霾中获得的视频的图像对比度，等等。

本领域技术人员将理解，相机阵列可用于捕获真实场景，诸如包括真实对象和主题的真实环境。然而，相机阵列也可表现虚拟相机的虚拟阵列，可用于捕获虚拟的计算机生成的场景。

优选地，多个媒体流可以捕获不同的真实的和/或计算机生成的虚拟场景，这些场景可以实时地与计算机生成的对象进行组合或进一步合成，以生成最终的增强输出流。这极大地改善了高度逼真和沉浸式的合成媒体的提供。

在又一实施例中，处理器还被配置为基于观看位置和观看朝向从多个媒体流生成多个输出流，其中，每个输出流反映通过偏移调节的观看位置和观看朝向。因此，处理器可以推测性地生成用于输出装置或观看者的可能的下一次运动的多个输出流。优选地，根据输出装置的当前观看位置和朝向，处理器还被配置为在多个输出流之间扭曲和拼接到最接近当前观看位置和朝向的输出流。这样可以实现更快的响应并减少延迟，得益于该输出流的计算。

在又一实施例中，处理器还被配置为解码该多个媒体流，其中基于多个媒体流中的另一个媒体流，多个媒体流中的至少一些媒体流被压缩。因此，可以通过使用视差效应本身来高效地压缩多个媒体流。由此，利用标准运动检测技术获得的运动向量可以对应于相邻媒体流之间的实际视差移位。他们可以描述，在将一个视频图像与来自相机阵列中的邻近的或毗连的相机的视频图像进行比较时，看到的图像块的移位。因此，只能对一个图像中的(向量)块与来自毗连的或邻近的相机的图像中的对应移位块之间的(通常很小的)差异进行编码。因此，可以极大地降低传输带宽，资源和存储空间。该编码也可以解释，例如，由于前景物体的遮挡，在一个图像中看到的但在来自毗连的或邻近的相机的另一个图像中看不到的图像数据。相应地，多个媒体流也可以被认为是包含来自多个相机的捕获媒体的单个流。

在又一实施例中，输入接口进一步被配置为接收多个观看位置，每个观看位置与输出装置相关联，并且其中，处理器进一步被配置为从多个媒体流生成多个输出流，每个输出流反映各自的观看位置。优选地，输入接口进一步被配置为接收多个观看朝向，每个观看朝向与多个输出朝向装置中的一个相关联，并且其中，处理器被配置为生成多个输出流，每个输出流反映各自的观看位置和朝向。因此，所捕获的场景可以被提供给多个输出装置，其中对于每个输出装置都考虑正确的运动视差。

在又一实施例中，该装置还包括输出接口，该输出接口被配置为将输出流传输到输出装置或将多个输出流传输到各自的输出装置。

根据本公开的另一方面，一种相机装置包括，被配置为提供多个媒体流的至少一个相机阵列，使用相机阵列的相机来捕获每个媒体流，其中该多个媒体流被提供来生成至少一个输出流，该输出流适应至少一个输出装置相关联的观看位置。

在一个实施例中，该至少一个相机阵列包括聚焦在一定距离范围的特定距离上的一个以上的相机，其中该一个以上的相机被配置为，以足够的焦距来捕获场景的至少一些或全部部分。替代地，该一个以上的相机中的单个相机传感器可以配备有透镜阵列，该透镜阵列以不同的聚焦距离，将场景多次投影到该传感器的分开的部分上。也可以使用配置成以特定距离为焦点来捕获场景的其他类型的相机，并且本公开不受相机的特定焦点类型的限制。

在一个实施例中，至少一个相机阵列包括至少一个具有超广角的透镜。相机阵列可以包括鱼眼透镜。优选地，每个相机可以配备有能够捕获诸如180°的宽观看角度的鱼眼透镜。附加地或作为替代的，该相机阵列可以配备具有超广角的单个大透镜，诸如，用于整个相机阵列的大鱼眼透镜。这可以用来捕获超过180°的角度，并避免使用附加的透镜配置各个相机。应该理解，即使相机可以捕获具有宽观看角度的媒体流，结果输出流也可以仅包括该观看角度的子范围，以便在输出装置上表现归一化的视野。特别地，表现宽观看角度的媒体流可以进一步使用图像处理和几何处理技术来处理，并且可以用其他各自处理后的媒体流进行内插以生成输出流。

在优选实施例中，至少一个相机是立体相机。相应地，该立体相机可以提供包括使用偏移被录制的两个分量的媒体流。因此，可以根据第一相机位置和相机朝向来录制该媒体流的第一分量，并且可以使用相同的相机朝向和被偏移到该第一分量的该相机位置的相机位置，来录制媒体流的第二分量。因此，媒体流的两个分量可以被认为是两个分开的媒体流，并且可以用于进一步生成输出媒体流。

这可以通过使用立体相机硬件来增加可用媒体流的数量。

在又一实施例中，至少一个相机是被配置为捕获深度信息的相机。应该理解，深度信息可以特别用于将捕获的媒体流与计算机生成的对象进行进一步合成。然而，深度信息也可以用于改善该多个媒体流的压缩。深度信息不需要被每个相机捕获。相反，每个相机阵列的子集或甚至单个相机可以捕获深度，和/或可以可选地被配备有深度传感器。

在又一实施例中，相机装置进一步包括处理器，该处理器被配置为编码该多个媒体流，其中基于多个媒体流中的另一个媒体流，多个媒体流中的至少一些媒体流被压缩。编码可以利用由相机阵列中的邻近的或毗连的相机捕获的媒体流中的空间相似性，这可以极大地降低所捕获的多个媒体流的大小，同时保留全部信息，该信息用于表现具有正确运动视差的输出流。

根据又一实施例，阵列的相机根据模式布置在表面上。根据由该模式限定的相机的观看位置和观看朝向，每个相机可以捕获已捕获场景的至少一部分。根据规律的模式，相机可以按规律的或等距的方式被布置在表面上。该模式也可以被视为阵列形式因子。

在一个优选实施例中，该表面是曲面。例如，该表面可以是凹面或凸面。基于该表面的配置，相机装置可适合于更好地捕获近处或远处对象的运动视差。

在又一实施例中，相机装置包括两个以上的相机阵列，其中阵列相对于彼此被转动预定角度。例如，两个阵列可以被间隔开并被转动30°、45°、60°、90°、115°、120°或135°。例如，相机装置可以包括三个相机阵列，该三个相机阵列可以相对于彼此转动120°以覆盖整个圆周的360°视图。类似地，相机装置可以包括至少四个相对于彼此转动90°的相机阵列。同样地，相机阵列可以根据几何形状布置，该几何形状诸如为立方体，金字塔或任何其他多面体的一个或多个面，而多面体诸如是正四面体，二十面体，菱形三面体，八角棱镜或任何其他规则或半规则多面体。

根据又一方面，一种输出装置包括被配置为显示至少一个输出流的至少一个显示器、以及用于检测与输出装置相关联的观看位置的元件，其中该至少一个输出流是从多个媒体流生成，使用至少一个相机阵列中的相机来捕获每个媒体流，其中该输出流适应该观看位置。

优选地，检测元件还可以检测与输出装置相关联的观看朝向，并且该观看朝向和位置可以用来生成用于在输出装置上显示的输出流。检测元件可以检测观看者的朝向和位置和/或输出装置的朝向和位置，它们可以被组合以确定观察位置和/或观察朝向。观看者的朝向和位置可以在各种层面上被跟踪或捕获，诸如，跟踪观看者的身体的朝向和/或位置，观看者的头部的朝向和/或位置，观看者的眼睛的朝向和/或位置，或观看者的各个眼睛的朝向和/或位置(眼睛跟踪)的任何组合，以便确定合适的观看位置和/或观看朝向。例如，输出装置可以是头戴式显示器，并且为了确定头部的位置和朝向，检测元件可以包括头部跟踪器来获得观看参数。然而，输出装置可以进一步配备有眼睛跟踪器，以便确定每个单独眼睛的观看位置和/或观看朝向，该观看位置和/或观看朝向可以用于为单个眼睛调节输出流。在又一实例中，输出装置可以是包括光学跟踪器的大型电视机，该光学跟踪器可以用于跟踪观看者的头部相对于电视屏幕的位置和朝向。因此，观看者相对于TV屏幕的相对位置和朝向可以被用来获得观看位置和/或观看朝向。同样在该实例中，输出装置可以附加地或作为替代地配备有眼睛跟踪器，以确定在电视屏幕上观看者正在观看的位置。应该理解，检测元件可以包括适合于确定观看位置和朝向的任何种类的技术，以使得能够正确重建要在输出装置上提供的输出流。

根据本公开的另一方面或实施例，输出流可以由(媒体)装置生成。然而，(媒体)装置也可以被集成在输出装置中，使得输出装置可以被配置为接收多个媒体流并且进一步处理该多个媒体流，以从该多个媒体流生成适应该装置的当前观看位置和/或观看朝向的输出流。

在又一实施例中，输出装置还包括接口，该接口被配置为接收多个输出流，每个输出流反映观看位置和/或观看朝向，其中输出装置被配置为，根据当前观看位置和/或观看朝向，在该多个输出流之间扭曲。如果输出流在远程实体上生成，则这样可以降低为当前观看位置和/或朝向提供正确输出流的延迟。

优选地，输出装置可以是用户显示装置，该装置可以连接到用于接收多个媒体流和/或至少一个输出流的网络。此外，输出装置可以包括存储器，该存储器用于存储该多个媒体流，或从诸如硬盘，DVD或蓝光盘的存储器读取该多个媒体流。相应地，输出装置也可以是个人计算机，机顶盒或控制台，这些个人计算机，机顶盒或控制台可以连接到显示器，并且可以包括检测与输出装置相关联的观看位置和/或朝向的元件。输出装置也可以是诸如头戴式显示器或计算机化眼镜的可穿戴装置，该可穿戴装置可以基于用户的眼睛或头部的运动直接调节观看位置和/或朝向。

根据又一个方面，一种系统包括根据本公开的一个或多个实施例的装置，其中该装置耦接到根据本公开的另一实施例的至少一个相机装置，和/或耦接到根据本公开的一个实施例的至少一个输出装置。

根据一个方面，一种方法，用于生成在输出装置上呈现的输出流，该方法被定义为包括步骤，提供多个媒体流，使用至少一个相机阵列中的相机来捕获每个媒体流，接收与输出装置相关联的观看位置，和从该多个媒体流生成适应该观看位置的输出流。

根据优选实施例，该方法可以包括处理步骤，该处理步骤可以以任何组合的方式，被定义为根据本公开的实施例的装置的功能。

根据又一方面，提供了一种计算机可读介质，该介质可以是有形的计算机可读介质，该介质可以在存储指令，该指令当被安装和/或在计算装置上执行时，使该计算装置进行根据本公开的一个或多个实施例的方法。根据一个或多个实施例，计算装置可以是相机装置，媒体装置或输出装置。

根据本公开的实施例的装置可以用包括一个或多个处理器和存储器来实现，该存储器用于存储指令和数据，该指令和数据可以由一个或多个处理器处理，以提供媒体流和/或生成和/或渲染根据本公开的实施例的输出流。此外，媒体，输入和输出接口可以以实现各自数据交换的软件接口，硬件接口或两者的组合实施，诸如，连到处理器和/或提供数据的各自API的硬件接口，诸如通信总线网络接口，I/O接口，各自的协议等等。

附图说明

结合以下描述和附图，将更好地理解本公开的具体特征，方面和优点，其中：

图1示出了根据本公开的一个实施例的系统；

图2示出了根据本公开的一个实施例的包括相机阵列的另一系统；

图3示出了根据本公开的一个实施例的相机装置的相机阵列的示意图；

图4示出了根据本公开的一个实施例的相机装置的另一配置；

图5示出了根据本公开的一个实施例的相机装置的又一配置；

图6示出了根据本公开的一个实施例的具有四个相机阵列的相机装置；

图7示出了根据本公开的实施例的相机阵列中的相机的可选配置；和

图8示出了根据本公开的又一个实施例的相机装置。

具体实施方式

在下面的描述中，参考以示意方式示出各种实施例的附图。而且，下面将通过参考若干实例来描述各种实施例。可以理解，实施例可以包括设计和结构的改变，这些改变不偏离所要求保护的主题的范围。

图1示出了根据本公开的一个实施例的系统。系统100包括相机装置101，该相机装置101具有布置在相机阵列中的多个相机。相机阵列可以是相机或者相机传感器的二维阵列，其中，为了提供期望的观看角度，诸如可以是虚拟现实(VR)/增强现实(AR)应用程序所需的大观看角度，阵列的形状可以是平面或曲面。相机装置101可以经由接口105向处理装置103提供多个媒体流。处理装置103可以被配置为，处理多个媒体流并且生成各自的输出流，该输出流反映与输出装置相关联的朝向和观看位置。

如图1所示，处理装置103可以连接到多个输出装置107，该输出装置107可以是多个虚拟现实或增强现实客户端，诸如VR头戴设备。每个VR头戴设备可以使用接口109将头戴设备的包括当前观看位置(三个坐标)和当前观看朝向(三个角度)在内的当前位置和朝向数据提供给处理装置103。处理装置103然后可以基于接收到的每个输出装置107的观看位置和观看朝向，为每个单独的输出装置107生成具有正确运动视差的输出流，然后可以经由接口111将正确的输出流发送到每个输出装置107。

为了以连续方式允许任意头部位移的正确视差效果，可以对由相机阵列101中的不同相机提供的多个媒体流进行内插得到正确的输出流。

作为替代，处理装置103可以生成多个输出流，并且可以经由接口111提供进一步的信息，该进一步的信息指示特定输出装置107应当选择哪个输出流来显示。作为替代，所选择的输出流可以经由接口113上拉取。

作为另一替代，输出装置107可以经由接口113对来自相机阵列的单个相机传感器的多个媒体流进行内插得到输出流，其中内插可以基于在媒体流中检测到的视差移位向量。每个输出装置107可以显示输出流，该输出流根据输出装置107的当前观看位置和/或输出装置107的观看朝向来反映正确的运动视差，以实现对所捕获的场景的进一步逼真的探索。

系统100的处理通过考虑人类的视觉处理原理来提供捕获内容的改进的沉浸式体验。

逼真的沉浸式的3D图形体验要求高质量，几何上正确的信息显示。在人类中，需要考虑来自双眼的传入视觉信息，以重建周围世界的正确的三维几何形状。因此，任何旨在向眼睛呈现三维图像的显示技术，无论是人工生成的图像还是从相机获得的图像，都需要考虑视觉处理原理。不正确的三维图像可能会混淆视觉处理，并可能导致不自然的感觉，从而降低体验质量。它甚至可能是眩晕的源头，诸如观察者的晕动病或眩晕症。

由于人类和动物的眼睛位于头部的不同位置，所以获得三维几何形状的原理之一是立体视觉。因此，双眼同时表现不同的视图。立体视图利用来自眼睛的不同视图来获得深度感知并估计与物体的距离。人类和动物也主动地使用运动视差，在使用运动视差中，头部进行移动来获得不同的视点。本领域技术人员可以理解，尽管立体视觉可用于提供深度感知，但运动视差独立于立体视觉并且甚至适用于仅单眼的媒体显示。例如，通过闭着一只眼睛观察前景物体，可以察觉当头部移动时前景物体的位置相对于背景如何偏移。即使在毫米级的非常小的头部位移情况下，也可以清楚地注意到这种效应。事实上，要保持头部静止，运动视差效应完全消失是相当困难的。在正常观看条件下，运动视差效应将会始终发生并将被用作信息源来重建三维几何形状。甚至当观看者为了观看场景的不同部分而转动他或她的头部时，眼睛的相对位置也会改变并且发生显著的运动视差效应。现有的具有大观看角度的相机系统不能考虑到这种效应。

因此，不考虑运动视差效应的立体显示系统可能将冲突信息发送给大脑。在更沉浸式的显示系统中，例如虚拟现实，头戴式显示器，AR眼镜或头戴设备中，情况甚至可能会更加恶化。通过这些系统，观看者可以以一个很大的角度，从左到右，向上或向下转动他的头部，并且向左和向右滚动头部。因此，为了提供沉浸式的体验，不管观看者正在看什么方向，都需要显示系统提供正确的图像。

尽管现有的立体鱼眼透镜相机可用于录制立体影片，但特别是在利用鱼眼透镜的大视野时，相机没有考虑到当观看者移动和/或以更大的角度转动他或她的头部时发生的运动视差效应。结果，用于基于这种立体鱼眼透镜相机的录制影片的显示系统将不可避免地向大脑提供带有沉浸式体验的质量损失的冲突信息。

观看者，尤其是那些使用诸如虚拟现实头戴设备的虚拟现实观看装备的人，将会有一种自然的倾向去将他们的头部从不同的观看位置移动到位于他们正前方的场景。例如，从一个位置观看对象时，该对象会隐藏起来，由于视差效应，同时从另一个位置观看该对象时，它会变得可见。因此，本公开使考虑到运动视差信息的实时或预先录制的媒体成为可能。

如图1所示，当预先录制的或实时的媒体稍后被呈现给观众时，其中观众中的每一个都可能佩戴自己的VR头戴设备，诸如输出装置107，那么，期望考虑观众中每位成员的实际观看方向，以及观众中每位成员的相对头部位置，使得包括正确图像的输出流能够服务于每个单独的观看者，该正确图像具有正确的视差信息。

尽管图1的系统100被示出为包括相机装置101，但是应该理解的是，处理装置103还可以处理预先录制的并且分别存储的媒体流，诸如指向预先录制的三维影片的多个媒体流。因此，预先录制的三维影片可以以正确地考虑运动视差效应的方式提供给一个观看者或观看者中的一个观众，以便一方面避免来自立体视觉的深度信息的冲突感知，另一方面避免来自运动视差的深度信息的冲突感知。

相反，由处理装置103提供的输出流可以向单独的用户提供他或她实际上存在于预先录制的三维影片中的错觉。提供给他或她的视觉信息将取决于可以限定观看位置和观看朝向的他或她的头部位置和朝向，该观看位置和观看朝向由处理装置103使用，以生成具有可伴随立体图像的正确的运动视差效应的输出流。然而，应该理解，正确的运动视差不取决于立体图像处理，而且也可以提供用于非立体的媒体流。

相机装置101可以包括相机或相机传感器的二维阵列，或相机或相机传感器的多个二维阵列。相机装置101可以被配置用于虚拟现实(VR)或增强现实(AR)应用，并且可以具有非常大的，例如180°或更大的视野，使得观看者可以通过向左、向右、向上或向下扭动他的头，或向左或向右滚动头部，以及通过在所有三个方向上移动头部，来从任何方向观察场景。这种宽视野可以通过特定的阵列形式因子来实现，该因子使用用于阵列的曲线形状或具有多个二维阵列的平坦形状。可选地，与用于宽观看角度的专用透镜相结合可以扩大观看角度，例如，阵列中的每个相机传感器可以配备有能捕获大约180°的观看角度的鱼眼透镜。呈现给观看者的视图可以是该观看角度的子范围，例如，根据观看者的观看方向，从总共约180°捕获的观看角度中选择的90°至120°。在这个特定的实例中，观看者可以在到达所捕获的场景的边界或者可见区域外的部分场景捕获之前，以35°至45°转动他或她的头部。如以下关于图4进一步描述的，实现非常大的观看角度的另一种选择是对整个相机阵列使用大鱼眼透镜。这种替代方法可以捕获大于180°的角度，并且避免单个传感器以大约180°相互遮挡场景。相应地，相机装置101的二维阵列可以提供水平的以及垂直的头部位移的视差信息。通过使用多个二维阵列，也可以实现头部向前和向后移动的运动视差。

由相机装置101的相机阵列录制的媒体数据可以被存储并且随后在任何时间使用，以便向使用各自的输出装置107的观看者提供输出流，各自的输出装置107诸如是VR头戴设备、具有各自跟踪硬件的视频眼镜或电视机，该输出流包括能从任意观看位置和任意观看朝向被看到的媒体。最大头部位移和最大观看角度可仅由相机装置101的二维阵列的形状和尺寸来限制。

输出装置107可以配备有传感器以确定输出装置或头戴设备相对于观看者的的相对位置(三个坐标)以及头戴设备相对于观看者的相对朝向(三个角度)。可以确定如何从多个(预先录制的)媒体流中生成输出流的这个跟踪信息总计有用于输出装置的6个自由度。

根据一个实施例，来自任意二乘二组的毗连的或邻近的相机或相机传感器的媒体流之间的运动向量能够被有利地用于为输出图像内插视差偏移，该输出图像可来自位于相机阵列上的任何中间位置的(虚拟)相机或相机传感器的位置。这可以允许为任何中间头部位移计算具有视差效应的输出图像。

运动向量的确定的质量可以利用可提供每像素深度信息的附加图像传感器来进一步被改进。在这种情况下，描述视差效应的运动向量可以使用光流技术或任何其它合适的技术，从媒体流的正常图像中计算得出，也可以从用于检查对应关系或用于改进结果运动向量的深度信息中计算得出。在有差异的情况下，可以使用各种方法，例如，使用置信水平，以从上述两种计算得出的运动向量选择其中之一，或将上述两种计算得出的运动向量取平均，或者应用其他的缓和策略。

由相机装置101提供的多个媒体流可以被压缩。媒体流可以包括视频流，该视频流要么可以类似于单个视频流被临时压缩，要么可以在空间上被压缩，其中，每个视频流与相机装置101中的毗连的或邻近的相机或相机传感器的空间上毗连的视频流进行比较。然后可以将相对运动向量和剩余的差别数据编码在媒体流中。因此，基于中枢媒体流，剩余的媒体流可以被编码为差别媒体流，该中枢媒体流可以对应于在相机装置101的相机阵列的中心被捕获的媒体流。这样可以大大降低所需的带宽并进一步降低所需的存储容量。运动向量和剩余的差别数据可以使用标准运动检测技术或任何其他合适的技术来确定。

在系统100的又一实施例中，每个单独的VR客户端可以从相机装置101的相机阵列的多个相机或相机传感器接收多个数据流，该多个数据流可以使用先前描述的空间压缩方法被压缩到一个单一数据流中。每个单独的VR客户端可以具有逻辑，该逻辑是，其自己的观看位置和朝向(6个自由度)的使用可以被配置为根据观看位置和朝向来提取、解压缩和内插媒体数据来生成输出流，以提供无缝的虚拟视图。因此，处理装置103可以被并入每个输出装置107(VR客户端)中。单一压缩数据流可以利用输出装置07为多个观看者服务，因此，如果许多观看者要被同时服务时，可以大大降低所需的带宽。

在系统100的另一实施例中，对于所有输出装置(VR客户端)，处理装置103可以知道每个输出装置107(VR设备)各自的观看位置和朝向(6个自由度)，并且可以内插多个媒体流，以便为所有输出装置107无缝地提供输出流。换句话说，处理装置103可以将来自相机装置101的N个相机或相机传感器的N个媒体流转换成针对M个观看者的M个视频流，该M个视频流也可以是立体视频流。使用M个视频流之间的空间运动向量，针对M个观看者的M个视频流能够被进一步可选地压缩成单一数据流，然后单一数据流由接口111被提供给多个输出设备107。因此，如果要同时服务许多观看者，则用单一压缩数据流为数个观看者提供服务可以大大降低所需的带宽。

这还降低了每个单独的头戴设备的硬件和逻辑要求，因为处理装置103在单一压缩流中提供重建每个单独输出装置107的输出流所需的数据。

根据一个示例性实施例，处理装置103可以为若干客户端提供单独的输出流。客户端数量可以动态变化。客户端的数量可以与第一阈值进行比较，并且如果客户端的数量超过第一阈值，则处理装置103可以从提供单独的输出流切换到可以服务于多个客户端的单一组合流。客户端的数量可以进一步与第二阈值进行比较，并且如果客户端的数量超过第二阈值，则处理装置103可以进一步被配置为提供多个组合数据流，每个组合数据流可以同时服务多达对应于第二阈值的若干客户端。因此，处理装置103可以动态地对客户端的当前数量作出反应。

图2示出了根据本公开的一个实施例的另一系统。系统200可以包括与图1中所示的系统100相同或相似的部件。相应地，相同的附图标记用于表示相同或相似的部件。

系统200可以包括相机装置101和处理装置103，处理装置103可以处理来自相机装置101的相机阵列的单个相机的多个媒体流。处理装置103可以基于输出装置107的朝向和/或观看位置为单个输出装置107提供输出流，这样每个输出流反映正确的运动视差。

处理装置103可以使用元数据经由接口202向输出装置107通知哪些输出流可用。诸如VR客户端或VR头戴设备的输出装置107，可以例如使用三个坐标来确定它们当前的相对观看位置，以及例如使用三个角度来确定它们的观看朝向，以便通过接口204发送各自的信息来从处理装置103接收正确的输出流。输出装置107然后可以经由接口113从处理装置103取出生成的输出流。

替代地，输出装置107可以例如经由接口204与处理装置103沟通哪些输出流应当被选择。处理装置103然后可以通过接口202将正确的输出流推送到输出装置107。

与图1所示的系统100类似，要显示在输出装置107上的输出流可以从来自相机装置101的相机阵列的多个原始相机的多个媒体流被内插，以便提供用于输出装置107的诸如以连续方式的头部位移的任意位移的正确的视差效应。

图3示出了根据本公开的一个实施例的相机装置的相机阵列的多个照相机的布置。相机装置300的相机阵列可以包括具有各自光学部件的多个相机传感器302。相机传感器302可以配备有诸如鱼眼透镜的大视野透镜304，以实现用于诸如高达180°的大观看角度的视差效应的捕获。

使用诸如图1和图2中所示的输出装置107之一的虚拟现实/增强现实头戴设备观看由相机装置300录制的影片的观看者，会被呈现例如90°至110°的子视野，使得观看者能够将他的头部向左、向右、向上和向下转动35°至45°，以查看总共180°内的其他录制的区域。头戴设备可以检测观看者的头部的当前位置和朝向，并且该信息之后可以用于重建在输出流中的用于显示的数据，该用于显示的数据可以从由各个相机传感器302捕获的选定的相机流被计算出。以他选择的任何方式转动和/或移动他的头部的观看者，将在所有方向上看到自然的转动的视差效应和自然的平移的视差效应。从而提供沉浸式的观看体验。

应该理解的是，图3中的相机装置300和随后在图4至图8中示意的装置的示意图没有表现完整的光学设计。相反，相机装置300和在图4至图8中示意的装置可以包括其他光学部件，诸如用于校正色差和其他伪影的部件。图3和随后的图4至图8旨在图示和展示一般原则。

图4示出了根据本公开的相机装置的又一个实施例。相机装置400可以包括具有各自光学部件404的相机传感器402的二维阵列。相机装置400可以配备用于单个相机传感器402的一个大鱼眼透镜406，以便实现捕获可能大于180°，诸如高达例如大约210°的大观看角度的视差效应。

使用虚拟现实/增强现实头戴设备观看由相机装置400录制的媒体数据的用户，会被呈现例如90°至110°的子视野，使得观看者能够将他的头部向左、向右、向上和向下转动50°至60°，以查看总共210°内的其他录制的区域。头戴设备可以类似于图1和图2中所示的输出装置107，并且可以包括用于检测观看者头部的当前位置和朝向的元件，该当前位置和朝向随后可以用于为该头戴设备生成具有正确的运动视差的输出流。

图5示出了根据本公开的一个实施例的相机装置的又一个相机阵列。相机阵列500可以包括布置在曲面上的多个相机502。相机502以预定的偏移被间隔，来等距地捕获场景的各部分。相机装置500能够捕获大于100°的视野而不需要广角透镜。相反，更大的观看角度通过相机阵列的曲率来实现。

图6示出了根据本公开的一个实施例的相机装置。相机装置600包括多个相机阵列602a、602b、602c、602d。尽管相机阵列602a，...，602d被示出为包括布置在曲面上的相机，但是相机阵列602a，...，602d中的一个或多个的表面不需要是弯曲的，并且也可以是平坦的，以任何组合的。每个相机阵列602a，...，602d的相机可以布置在凹面上。这能够捕获感兴趣对象非常靠近相机装置602的特写场景。凹面相机阵列602a，...，602d的向外延伸的端部可以更接近场景，允许观看者“在拐角处”观看除此之外不可能看到的部分场景。

相机装置600的高达180°的视野可以在没有广角透镜而是利用阵列本身的凹曲率的情况下实现。多个相机阵列602a，...，602d中的每一个可以提供高达180°的观看角度。

由于相机阵列602a，...，602d的凹面特性，相机阵列602a，...，602d的左手侧的或右手侧的传感器分别捕获大角度向右或向左的观看角度。相机装置600的大于180°的观看角度可以通过组合多个凹面相机阵列来实现，每个凹面相机阵列具有高达180°的观看角度。通过组合四个凹面相机阵列602a，...，602d，相机装置600可实现360°的观看角度。然而，使用四个相机阵列602a，...，602d仅是优选实例，也可以使用更少或更多的相机阵列。例如，四个传感器阵列602a，...，602d中的一个或多个可被省略以提供小于360°的观看角度。此外，相机装置600可以被提供有附加相机阵列(未示出)，例如，该附加相机阵列可以垂直于相机阵列602a，...，602d并面向Z方向布置。

图7示出了根据本公开的一个或多个实施例的相机装置的相机阵列中的单个相机传感器的观看角度的各种配置。

在第一实例702中，相机阵列中的相机传感器可以等距地间隔开，但是具有不同的朝向。例如，相对于阵列的基底表面，第一传感器可以转动30°，第二传感器转动45°和第三传感器转动60°。以这种方式，可以实现更大的总观看角度。在这个实例中，每台相机的90°的观看角度，而六台相机组合起来具有180°的观看角度

在第二实例704中，可以使用实例702的传感器的位置和朝向，其中传感器可以进一步配备有附加透镜。附加透镜可以将总观看角度进一步增加到超过180°的实例相机配置。

在第三实例706中，示出了在弯曲表面上的相机阵列的单个相机传感器的视野划分，该划分可以用于确定由相机传感器提供的若干媒体流，以便为输出装置的特定观看位置和/或朝向生成输出流。在实例706中，使用具有与图6的实施例类似优点的凹曲率。凹面相机阵列的向外延伸的端部可以更接近场景，允许观看者“在拐角处”观看除此之外不可能看到的部分场景。然而，与凹面相机阵列602相反，因为相机的不同朝向，在实例706中的相机阵列的右手侧的传感器捕获大角度向右的观看角度，而在实例706中相机阵列的左手侧的传感器捕获大角度向左的观看角度。

图8示出了根据本公开的相机装置的另一实施例。相机装置800可以包括朝向右、前和左的多个二维相机阵列802a，802b，802c。此外，相机装置800可以包括面向相机装置800的底部和顶部的两个另外的二维阵列(未示出)。因此，相机装置800的二维阵列可以表现立方体的六个边中的五个边。相机装置800能够在所有方向上捕获大约270°的非常大的观看角度，以使得使用诸如图1和图2所示的输出装置107的虚拟现实或增强现实头戴设备或任何其他输出装置，观看使用相机装置800录制的诸如影片的媒体的观看者，可沿任何方向向左、向右、向上和向下看。

如果输出装置中的显示视野大约为90°至110°，则用户可以将他的头部向左、向右、向上和向下转动80°至90°，以查看总共大约210°之内的其他录制的区域。无论用户向哪里看，每当他移动或转动头部时，通过为头戴设备生成合适的输出流，都能够向他显示具有正确视差效应的重建图像。

在又一实施例中，也可以改动图8中图示的设置，使得每个相机阵列802a，802b，802c可以用作单独的相机装置。对于每个阵列802a，802b，802c来说具有最小90°，优选100°或110°的降低的观看角度就足够了。该观看角度条件可允许应用相对于彼此以90°角定位的多个传感器阵列(或多个相机装置)。

在图8所示的实施例中，可以使用五个方形阵列传感器板，优选地，每个板可以单独工作，每个板可以独立负责所捕获的媒体数据的进一步处理，包括但不限于视频压缩(相机传感器之间的时间的和空间的)、运动向量、视差向量检测、与Z缓冲等效的视差处理和/或伪像抑制中的一个或多个。

因此，根据本公开的实施例，每个板可以作为90°至110°的相机装置工作。为了构建270°视野的相机装置，可以使用五个相同的板，该板具有以立方体的形式布置的传感器阵列，其中每个板可以负责总共270°观看角度中自己的部分，并且每个板的输出被提供用来分开显示区域。然而，应该理解，可以使用或多或少的不同布置的板。

如图8所示，所提供的媒体流可以被进一步处理和组合以生成用于输出装置的左眼和右眼数据的输出流。尽管左眼和右眼显示器804a，804b被描绘在相机装置800内，但这仅用于说明目的，并且当在显示器804a，804b上呈现由相机装置800捕获的媒体时，左眼显示器804a和右眼显示器804b通常将不会位于相机装置800内。

本公开的优选实施例可以以任意组合包括以下特征中的一个或多个：

-相机装置的物理或虚拟相机可以在相机阵列中以特定的形式因子被分隔开和朝向；

-根据本公开的实施例的相机装置能够为诸如VR/AR用户的观看者捕获全部6个自由度视差；

-这使得观看者能够就他们自己在6个自由度空间中的实际位置而言，获得相对于他们的头部/眼睛位置的精确和正确的图像再现；

-相机阵列捕获可以是静态的。因此，结果媒体流可以被存储并且在随后的呈现中被重放，其中多个媒体流可以用于生成被调整到装置位置和/或朝向的具有正确的运动视差的各个输出流；

-根据本公开的实施例的相机装置提供多个媒体流，多个媒体流具有以任何组合的单声道的或立体声的，或者具有立体声和深度的、或者具有单声道和深度的深度信息；

-来自相机的阵列的媒体流能够被处理，其中该处理可以发生在服务器或诸如客户端装置本身的输出装置上；

-对于每个单独的输出装置，诸如VR客户端，可以处理多个媒体流；-对多个媒体流的处理生成了高质量的输出流。特别地，输出流的诸如分辨率和色彩深度的质量可以与输入媒体流的质量相对应；

-根据输出装置的当前位置和朝向，每个输出装置可以计算关于相机的可能的阵列的虚拟的相机位置和朝向。也可以在负责多个媒体流的服务器上进行该计算；

-每个输出装置可以进一步处理多个媒体流以生成具有正确的立体声属性的输出流；

-根据本公开的实施例的处理涉及多个媒体流的图像的分析，该多个媒体流与来自相机阵列的至少一些相机的深度信息相组合以生成期望的输出流；

-多个媒体流或多个输出流之间的附加扭曲技术可以用于去除进一步的延迟，并在诸如头戴设备的输出装置上创造更快的响应；

为了流的有效传输，多个媒体流以及多个输出流可以被压缩；

-媒体流的压缩可以包括标准的I、P和B帧技术，其中I定义了帧内编码帧，P定义(前向)预测帧并且B定义双向预测帧，使用来自毗连的或邻近的相机传感器的媒体数据的相似性，可以利用这些技术进行空间压缩和时间压缩；

-为了观看目的，多个媒体流可以被内插在各个输出流中，使得连续的头部移动可以产生源自多个媒体流的连续的内插显示图像；和

-内插法可特别地使用周围的或邻近的相机或相机传感器的数据流，内插虚拟相机位置得到输出流，该虚拟相机位置可以被定位和朝向在相机装置中的两个、三个、四个或更多个真实的相机或相机传感器之间。

可以理解，这些特征可以任何组合被结合在本公开的实施例中。

虽然已经详细描述了一些实施例，但应理解，本公开的各方面可以采取许多形式。要求保护的主题可以与所描述的实例不同地实践或实施，并且所描述的特征和特性可以以任何组合来实践或实施。这里所示的实施例意在说明而不是限制由权利要求所限定的本发明。

Claims

1.一种装置，其特征在于，包括：

媒体接口，被配置为提供多个媒体流，使用两个以上的相机阵列中的相机来捕获每个媒体流，所述媒体流具有6个自由度视差，所述阵列相对于彼此被转动预定角度；

输入接口，被配置为接收与输出装置相关联的具有6个自由度的观看位置和观看朝向；和

处理器，被配置为基于所述观看位置和所述观看朝向来确定所述多个媒体流中的两个以上的媒体流，并且根据所述观看位置和所述观看朝向，通过处理所述两个以上的媒体流来生成输出流，其中，处理所述两个以上的媒体流包括，对所述两个以上的媒体流进行扭曲、拼接、内插和外推中的一个或多个；

其中，所述处理器进一步被配置为，基于所述观看位置和所述观看朝向，从所述多个媒体流生成多个输出流，其中，每个输出流反映通过偏移调节的所述观看位置和所述观看朝向，其中，根据与所述输出装置相关联的当前观看位置和观看朝向，所述处理器进一步被配置为，将所述多个输出流扭曲为最接近所述当前观看位置和观看朝向的输出流。

2.根据权利要求1所述的装置，其特征在于，每个相机阵列被配置为捕获场景，阵列中的每个相机被配置为根据相机参数捕获所述场景的至少一部分。

3.根据权利要求2所述的装置，其特征在于，

根据所述输出装置的视野以及由所述相机捕获的所述媒体流中的所述场景的部分，确定所述两个以上的媒体流为n个最接近所述输出装置的视角的媒体流。

4.根据权利要求1至3中任一项所述的装置，其特征在于，所述多个媒体流中的至少一部分媒体流是预先录制的媒体流或实时媒体流。

5.根据权利要求1至3中任一项所述的装置，其特征在于，所述处理器进一步被配置为，将所述输出流与至少一个计算机图形对象组合，所述装置还包括可通信地耦接到所述处理器的引擎，所述引擎被配置为根据所述观看位置和所述观看朝向，提供所述至少一个计算机图形对象。

6.根据权利要求1至3中任一项所述的装置，其特征在于，所述处理器进一步被配置为，解码所述多个媒体流，其中基于所述多个媒体流中的另一个媒体流，所述多个媒体流中的至少一些媒体流被压缩。

7.一种相机装置，其特征在于，包括：

两个以上的相机阵列，被配置为提供多个媒体流，使用所述相机阵列的相机来捕获每个媒体流，所述媒体流具有6个自由度视差，

其中，提供所述多个媒体流以基于与至少一个输出装置相关联的具有6个自由度的观看位置和观看朝向来确定所述多个媒体流中的两个以上的媒体流，并且根据所述观看位置和所述观看朝向，通过处理所述两个以上的媒体流来生成适应所述观看位置和所述观看朝向的至少一个输出流，其中，处理所述两个以上的媒体流包括，对所述两个以上的媒体流进行扭曲、拼接、内插和外推中的一个或多个，

其中，基于所述观看位置和所述观看朝向，从所述多个媒体流生成多个输出流，其中，每个输出流反映通过偏移调节的所述观看位置和所述观看朝向，其中，根据与所述输出装置相关联的当前观看位置和观看朝向，将所述多个输出流扭曲为最接近所述当前观看位置和观看朝向的输出流，

其中，所述阵列相对于彼此被转动预定角度。

8.根据权利要求7所述的相机装置，其特征在于，所述两个以上的相机阵列包括至少一个具有超广角的透镜。

9.根据权利要求7或8所述的相机装置，其特征在于，

至少一个相机是立体相机或被配置为捕获深度信息的相机。

10.根据权利要求7或8所述的相机装置，其特征在于，阵列中的所述相机根据阵列形式被布置在表面上，其中所述表面是平面或曲面。

11.一种输出装置，其特征在于，包括：

至少一个显示器，被配置为显示至少一个输出流；和

用于检测与所述输出装置相关联的观看位置的元件，所述输出装置进一步包括连接到根据权利要求1至6中任一项所述的被配置为生成所述至少一个输出流的装置。

12.一种用于生成输出流的方法，其特征在于，包括：

提供多个媒体流，使用两个以上的相机阵列中的相机来捕获每个媒体流，所述媒体流具有6个自由度视差，所述阵列相对于彼此被转动预定角度；

接收与输出装置相关联的具有6个自由度的观看位置和观看朝向；和

基于所述观看位置和所述观看朝向来确定所述多个媒体流中的两个以上的媒体流，并且根据所述观看位置和所述观看朝向，通过处理所述两个以上的媒体流来生成输出流，其中，处理所述两个以上的媒体流包括，对所述两个以上的媒体流进行扭曲、拼接、内插和外推中的一个或多个；

其中，基于所述观看位置和所述观看朝向，从所述多个媒体流生成多个输出流，其中，每个输出流反映通过偏移调节的所述观看位置和所述观看朝向，其中，根据与所述输出装置相关联的当前观看位置和观看朝向，将所述多个输出流扭曲为最接近所述当前观看位置和观看朝向的输出流。