CN109479147B

CN109479147B - 用于时间视点间预测的方法及技术设备

Info

Publication number: CN109479147B
Application number: CN201780042855.2A
Authority: CN
Inventors: P·阿弗莱吉贝尼
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-07-14
Filing date: 2017-07-13
Publication date: 2023-10-20
Anticipated expiration: 2037-07-13
Also published as: GB201612204D0; EP3494691A4; US11128890B2; EP3494691A1; GB2556319A; WO2018011473A1; CN109479147A; US20190313120A1; EP3494691B1

Abstract

本发明涉及一种方法以及用于实现该方法的装置。该方法包括：确定多相机设备在第一时间与第二时间之间的移动，多相机至少包括第一相机和第二相机；选择来自第一相机的在第一时间的帧；以及将所选择的帧输入到来自第二相机的在第二时间的帧的参考帧列表中；其中，第一相机在第一时间的位置和方向与第二相机在第二时间的位置和方向相同，并且其中，第一相机和第二相机不同。

Description

用于时间视点间预测的方法及技术设备

技术领域

本方案一般涉及处理媒体内容。更具体地，本方案涉及用于对立体和多视点视频内容进行时间视点间预测的方法及技术设备。

背景技术

由于媒体内容分辨率的增加，以及视点数量和更高的每秒帧数(FPS)，因此将要在设备之间传输或广播到多个设备的媒体内容包括不断增长的数据量。当前的广播基础架构无法实时传输该全部数据量。因此，需要减少所需比特率的量以实现这样的数据的广播。

发明内容

现在发明了一种改进的用于降低将要广播的内容的比特率的方法以及实现该方法的技术设备。本发明的各个方面包括一种方法、装置以及其中存储有计算机程序的计算机可读介质，它们以独立权利要求中所述的内容为特征。本发明的各种实施例在从属权利要求中公开。

根据第一方面，提供了一种方法，其包括：确定多相机设备在第一时间与第二时间之间的移动，多相机至少包括第一相机和第二相机；选择来自第一相机的在第一时间的帧；以及将所选择的帧输入到来自第二相机的在第二时间的帧的参考帧列表中；其中，第一相机在第一时间的位置和方向与第二相机在第二时间的位置和方向相同，并且其中，第一相机和第二相机不同。

根据实施例，该方法还包括：基于相机的加速度计和陀螺仪，确定相机的位置和方向。

根据实施例，多相机是立体相机。

根据实施例，该方法还包括：确定第一相机和第二相机在第二时间相对于第一时间的当前相对距离和关系。

根据实施例，该方法还包括：将第一相机和第二相机的物理距离和关系与第一相机和第二相机在第二时间与第一时间之间的当前相对距离和关系相比较。

根据实施例，来自第一相机的参考帧在来自第二相机的帧的参考帧列表中的次序和位置取决于以下中的至少一项：在第二时间与第一时间之间在场景中的移动量；第二时间与第一时间之间的时间差。

根据第二方面，提供了一种装置，其包括：至少一个处理器；包括计算机程序代码的存储器，存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少执行以下操作：确定多相机设备在第一时间与第二时间之间的移动，多相机至少包括第一相机和第二相机；选择来自第一相机的在第一时间的帧；以及将所选择的帧输入到来自第二相机的在第二时间的帧的参考帧列表中；其中，第一相机在第一时间的位置和方向与第二相机在第二时间的位置和方向相同，并且其中，第一相机和第二相机不同。

根据实施例，该装置还包括：被配置为使该装置基于相机的加速度计和陀螺仪，确定相机的位置和方向的计算机程序代码。

根据实施例，多相机是立体相机。

根据实施例，该装置还包括：被配置为使该装置确定第一相机和第二相机在第二时间相对于第一时间的当前相对距离和关系的计算机程序代码。

根据实施例，该装置还包括：被配置为使该装置将第一相机和第二相机的物理距离和关系与第一相机和第二相机在第二时间与第一时间之间的当前相对距离和关系相比较的计算机程序代码。

根据第三方面，提供了一种装置，其包括：用于确定多相机设备在第一时间与第二时间之间的移动的装置，其中，多相机至少包括第一相机和第二相机；用于选择来自第一相机的在第一时间的帧的装置；以及用于将所选择的帧输入到来自第二相机的在第二时间的帧的参考帧列表中的装置；其中，第一相机在第一时间的位置和方向与第二相机在第二时间的位置和方向相同，并且其中，第一相机和第二相机不同。

根据实施例，该装置还包括：用于基于相机的加速度计和陀螺仪，确定相机的位置和方向的装置。

根据实施例，多相机是立体相机。

根据实施例，该装置还包括：用于确定第一相机和第二相机在第二时间相对于第一时间的当前相对距离和关系的装置。

根据实施例，该装置还包括：用于将第一相机和第二相机的物理距离和关系与第一相机和第二相机在第二时间与第一时间之间的当前相对距离和关系相比较的装置。

根据第四方面，提供了一种具体化在非暂时性计算机可读介质上的计算机程序产品，其包括计算机程序代码，该计算机程序代码被配置为当在至少一个处理器上执行时使装置或系统：确定多相机设备在第一时间与第二时间之间的移动，多相机至少包括第一相机和第二相机；选择来自第一相机的在第一时间的帧；以及将所选择的帧输入到来自第二相机的在第二时间的帧的参考帧列表中；其中，第一相机在第一时间的位置和方向与第二相机在第二时间的位置和方向相同，并且其中，第一相机和第二相机不同。

附图说明

在下文中，将参考附图更详细地描述本发明的各种实施例，其中：

图1示出用于立体观看的系统和装置；

图2a示出用于立体观看的相机设备；

图2b示出用于立体观看的头戴式显示器；

图3示出根据实施例的相机；

图4a、b示出多相机设备的示例；

图5a、b示出根据实施例的编码器和解码器；

图6是示出根据实施例的方法的流程图；

图7示出根据实施例的相机设备；

图8示出两个相机之间距离和角度差的示例；

图9示出确定第二相机的解码帧的参考的示例；

图10示出利用多相机设备来确定第二相机的解码帧的参考的示例；

图11将根据实施例的方法示出为流程图；

图12a、b示出根据实施例的装置。

具体实施方式

关于用多相机设备而捕获的内容讨论了本发明的实施例。多相机设备包括两个或更多个相机，其中，两个或更多个相机可以成对地布置在所述多相机设备中。每个所述相机具有相应的视场，并且每个所述视场覆盖多相机设备的观看方向。

多相机设备可以包括位于与以下位置中的至少一些对应的位置处的相机：处于正常解剖姿势的人体头部的眼睛位置；处于最大屈曲解剖姿势的人体头部的眼睛位置；处于最大伸展解剖姿势的人体头部的眼睛位置；和/或，处于最大左右旋转解剖姿势的人体头部的眼睛位置。多相机设备可以至少包括三个相机，这些相机被布置成使得它们在相应的相机的视场方向上的光轴落在半球视场内，多相机设备不包括其光轴在半球视场以外的相机，并且多相机设备的总视场覆盖整个球体。

在本文中描述的多相机设备可以具有配有广角镜头的相机。多相机设备可适合于创建立体观看图像数据和/或多视点视频，其包括针对多个相机的多个视频序列。多相机可以使得由至少两个相机构成的任何相机对具有与人眼的视差(差距)对应的视差，以用于创建立体图像。至少两个相机可以具有重叠的视场，以使得其每个部分由所述至少两个相机所捕获的重叠区域被限定，并且这种重叠区域可用于形成用于立体观看的图像。

图1示出了用于立体观看的系统和装置，即，用于3D视频和3D音频数字捕获和播放的系统和装置。该系统的任务是从特定位置捕获足够的可视和可听信息，以使得在物理上位于不同位置的一个或多个观看者可选地在将来某一时间完美地再现处于该位置的体验或存在。这种再现需要可由单个相机或麦克风捕获的更多信息，以便观看者可以使用他们的眼睛和耳朵来确定场景内的对象的距离和位置。为了创建具有视差的一对图像，使用两个相机源。以类似的方式，为了使人类听觉系统能够感测到声音的方向，至少使用两个麦克风(通过记录两个音频通道来创建公知的立体声)。人类听觉系统可以检测线索(例如，音频信号的时间差)以检测声音的方向。

图1的系统可以包括三个主要部分：图像源、服务器和呈现设备。视频捕获设备SRC1包括多个相机CAM1、CAM2、...、CAMN，这些相机具有重叠的视场，以使得从至少两个相机捕获视频捕获设备周围的视点区域。设备SRC1可以包括多个麦克风，以捕获来自不同方向的音频的定时和相位差。设备SRC1可以包括高分辨率定向传感器，以使得可以检测和记录多个相机的定向(观看方向)。设备SRC1包括或在功能上连接到计算机处理器PROC1和存储器MEM1，该存储器包括用于控制视频捕获设备的计算机程序PROGR1代码。由视频捕获设备捕获的图像流可以存储在存储器设备MEM2上，以在另一个设备(例如，观看设备)中使用和/或使用通信接口COMM1发送到服务器。需要理解，虽然在此将8相机立方体设置描述为系统的一部分，但是可以替代地使用另一个多相机(例如，立体相机)设备作为系统的一部分。

作为创建图像流的视频捕获设备SRC1或多个此类设备的替代或补充，合成图像的一个或多个源SRC2也可以存在于该系统中。这种合成图像的源可以使用虚拟世界的计算机模型来计算它发送的各种图像流。例如，源SRC2可以计算与位于虚拟观看位置的N个虚拟相机对应的N个视频流。当这种合成的视频流集用于观看时，观看者可以看到三维虚拟世界。设备SRC2包括或在功能上连接到计算机处理器PROC2和存储器MEM2，该存储器包括用于控制合成源设备SRC2的计算机程序PROGR2代码。由设备捕获的图像流可以存储在存储设备MEM5(例如存储卡CARD1)上，以在另一个设备(例如，观看设备)中使用或使用通信接口COMM2发送到服务器或观看设备。

除了捕获设备SRC1以外，还可以存在存储、处理和数据流服务网络。例如，可以具有存储来自捕获设备SRC1或计算设备SRC2的输出的服务器SERVER或多个服务器。设备SERVER包括或在功能上连接到计算机处理器PROC3和存储器MEM3，该存储器包括用于控制服务器的计算机程序PROGR3代码。设备SERVER可以通过有线和/或无线网络连接(或两者)而连接到源SRC1和/或SRC2，以及通过通信接口COMM3连接到观看设备VIEWER1和VIEWER2。

为了观看所捕获或创建的视频内容，可以具有一个或多个观看设备VIEWER1和VIEWER2。这些设备可以具有呈现模块和显示模块，或者这些功能可以组合在单个设备中。这些设备可以包括或在功能上连接到计算机处理器PROC4和存储器MEM4，该存储器包括用于控制观看设备的计算机程序PROG4代码。观看(播放)设备可以包括数据流接收器，其用于从服务器接收视频数据流并解码视频数据流。数据流可以经由网络连接通过通信接口COMM4接收，或者从存储设备MEM6(如存储卡CARD2)接收。观看设备可以具有图形处理单元，其用于将数据处理成适合观看的格式。观看设备VIEWER1包括用于观看所呈现的立体视频序列的高分辨率立体图像头戴式显示器。头戴式显示器可以具有定向传感器DET1和立体声音频耳机。观看设备VIEWER2包括具有使能3D技术的显示器(用于显示立体视频)，并且呈现设备可以具有与其连接的头部定向检测器DET2。设备(SRC1、SRC2、SERVER、RENDERER、VIEWER1、VIEWER2)中的任一个可以是计算机或便携式计算设备，或者可以连接到这些设备。这种呈现设备可以具有用于执行根据在本文中描述的各种示例的方法的计算机程序代码。

图2a示出了用于立体观看的相机设备。该相机包括两个或更多个相机，这些相机被配置成用于创建左眼图像和右眼图像的相机对，或者可以被布置成这样的对。相机之间的距离可以对应于人眼之间的常规(或平均)距离。这些相机可以被布置成使得它们的视场具有大量重叠。例如，可以使用180度或更大的广角镜头，并且可以有2、3、4、5、6、7、8、9、10、12、16或20个相机。相机可以规则地或不规则地间隔开以获取整个视点球体，或者它们可以仅覆盖整个球体的一部分。例如，可以有三个以三角形布置的相机，这些相机具有朝向三角形的一边的不同的观看方向，以使得所有三个相机覆盖观看方向中间的重叠区域。作为另一个示例，具有广角镜头的8个相机规则地被布置在虚拟立方体的拐角处并且覆盖整个球体，以使得整个或基本上整个球体在所有方向上被至少3或4个相机覆盖。在图2a中，示出了三个立体相机对。

可以使用具有其它类型的相机布局的多相机设备。例如，可以使用其中所有相机在一个半球中的相机设备。相机数量例如可以是2、3、4、6、8、12或者更多。可以将相机布置成创建其中可以根据两个或更多个相机的图像数据形成立体图像的中心视场，以及其中一个相机覆盖场景并且仅可以形成正常非立体图像的外围(极端)视场。

图2b示出了用于立体观看的头戴式显示器。头戴式显示器包括两个屏幕部分或两个屏幕DISP1和DISP2，其用于显示左眼图像和右眼图像。显示器靠近眼睛，因此使用镜头以使图像易于观看并且用于展开图像以尽可能多地覆盖眼睛的视野。该设备被附着到用户的头部，以使得即使当用户转动其头部时也保持在原位。该设备可以具有定向检测模块ORDET1，其用于确定头部的头部移动和方向。头戴式显示器向用户提供所记录/流传输的内容的三维(3D)感知。

图3示出了相机CAM1。该相机具有相机检测器CAMDET1，其包括多个传感器元件以用于感测照射传感器元件的光的强度。该相机具有镜头OBJ1(或多个镜头的镜头布置)，镜头被定位成使得照射传感器元件的光通过镜头传送到传感器元件。相机检测器CAMDET1具有标称中心点CP1，其是多个传感器元件的中点，例如，对于矩形传感器，该点是对角线的交叉点。镜头也具有标称中心点PP1，其例如位于镜头的对称轴上。相机定向的方向通过穿过相机传感器的中心点CP1和镜头的中心点PP1的线来限定。相机的方向是沿着该线指向从相机传感器到镜头的方向的矢量。相机的光轴被理解为是该线CP1-PP1。

上述系统可以按照如下方式工作。首先使用捕获设备记录时间同步的视频、音频和定向数据。这可以包括上述多个并发视频和音频流。然后立即或随后将这些流传输到存储和处理网络以进行处理并转换成适合于随后传送到播放设备的格式。转换可以涉及对音频和视频数据的后处理步骤，以提高数据的质量和/或在保持所需质量水平的同时减少数据量。最后，每个播放设备从网络接收数据流，并将其呈现为原始位置的立体观看再现，其可以由具有头戴式显示器和耳机的用户体验。

图4a和4b示出了用作图像源的相机设备的示例。为了创建完整的360度立体全景，需要从两个位置拍摄每个观看方向，一个用于左眼，一个用于右眼。在视频全景的情况下，需要同时拍摄这些图像以使眼睛彼此保持同步。由于一个相机无法在物理上覆盖整个360度视点，至少不会被另一个相机遮挡，因此需要多个相机以形成整个360度全景。然而，额外的相机会增加系统的成本和大小，并且增加更多要处理的数据流。当将相机安装在球体或柏拉图立方体布置上以获得更垂直的视场时，该问题变得更加突出。然而，即使通过例如在诸如八面体或十二面体的球体或柏拉图立方体上布置多个相机对，这些相机对也不会实现眼睛视点之间的任意角度视差。眼睛之间的视差被固定到相机对中的各个相机的位置，也即是说，在与该相机对垂直的方向上不能实现视差。当使用还允许观看角度围绕z轴任意旋转的头戴式显示器观看立体声内容时会产生问题。

对于多个相机两次覆盖捕获设备周围的每个点的要求将需要捕获设备中具有非常多数量的相机。在该技术中，镜头与180度(半球)或更大的视场一起使用，并且相机被布置成其中在捕获设备周围的精心选择的布置。这种布置在图4a中示出，其中相机已被定位在虚拟立方体的拐角处，具有从立方体的中心点指向远处的定向DIR_CAM1、DIR_CAM2、...、DIR_CAMN。当然，也可以使用诸如立方八面体形状的其它形状或者其它布置，甚至是不规则的布置。

可以使用重叠的超宽视场镜头，以使得相机既可以用作一个相机对的左眼视点，也可以用作另一个相机对的右眼视点。这将所需的相机数量减半。以这种方式减少相机数量的一个令人意外的优点是增加了立体观看质量，因为它还允许在所有相机中任意选择左眼和右眼相机，只要这些相机彼此具有足够的重叠视点。使用具有不同数量的相机和不同的相机布置(诸如球体和柏拉图立方体)的该技术，使得能够针对每只眼睛选择最接近的匹配相机，从而还实现了眼睛之间的垂直视差。这尤其有利于当使用头戴式显示器观看内容的情况。所描述的相机设置可以允许以更高的保真度和更小的相机设备费用来创建立体观看。

本发明的实施例涉及至少包括两个相机的多相机系统。具体地，本发明的实施例涉及立体和多视点视频压缩。本发明的实施例提出了一种用于从第一视点选择参考帧，并将所选择的帧输入到第二视点的参考帧列表(RFL)中的新方法。该选择取决于两个相机之间的物理距离以及第一相机从在第一时间(T1)的一个位置到在第二时间(T2)的另一个位置的移动。如果移动量和方向与两个相机之间的距离量和方向相同，则从在第一时间的第一视点(即，从第一相机观看)获取的帧将被添加到用于将针对在第二时间的第二视点(即，从第二相机观看)编码的帧的RFL中，其中，第一视点和第二视点分别在第一时间和第二时间具有相同的位置和方向。

在相关技术中，一种被称为深度图的技术是公知的。深度图表示与从观察者的视点到场景对象的表面的距离相关的值。由于所生成的深度图包含来自图像中每个像素的深度值，因此可以将它们描绘为灰度图像。深度图可以被认为是近似分段平面的，其中高度均匀的区域由强轮廓分隔开。因此，可以认为通过保留更多的轮廓，将深度图用于虚拟视点合成问题的可能性将增加。这可以通过观察针对基于分段的压缩方法的大量正在进行的研究而得到证实，其中这些方法应用于深度图或不同的边缘感知深度图重采样算法。

多视点视频加深度(MVD)是指伴随每像素深度图分量的一组纹理视点。包括深度图的原因是在不同的编码(解码)和后处理步骤中利用它们，例如提高纹理视点压缩的效率，或者在视点合成中使用它们。深度图的质量越高，虚拟渲染视点的质量越好，在渲染视点中呈现的合成伪像越少。然而，在一些情况下，如果深度图质量非常低，则在渲染视点中的合成伪像可能支配主观质量，因此可以认为渲染视点将无法被终端用户观看。

多视点视频序列的视点表示相同真实世界场景的不同投影，这些投影通过彼此略微分隔开定位的多个相机同步捕获。一个视点的内容可以用作另一个视点的基础，这意味着当一个视点在解码器侧可用时，该视点可以在视点间预测过程中使用以更有效地编码其它视点。与基础视点相比，这种视点间预测降低了编码其它视点(除了基础视点以外)所需的比特率。两个视点中的对象/场景内容之间的差异量的一个贡献因素是这些对象与相机的距离。对象越近，这些对象在不同视点中的布置差异就越大。

视点间预测用于考虑已用不同相机同时从同一场景捕获的两个视点之间的可用冗余。这归因于从略微不同的观看方向同时捕获视点的事实，因此，它们表示相同的内容，其中引入场景的不同部分的视差取决于这些不同部分与捕获设备的距离。

时间预测考虑了在两个不同时间戳处用特定相机捕获的同一场景之间的相似性。这意味着由一个相机在两个不同时间捕获的内容之间存在相似性，并且可以基于第一帧的内容来估计后一帧。场景中静态部分越多，两帧之间的相似性就越大。

视频编解码器包括将输入视频转换为适于存储/传输的压缩表示的编码器，以及可将压缩的视频表示解压缩回可视形式的解码器。通常，编码器丢弃原始视频序列中的一些信息，以便以更紧凑的形式(即，以更低的比特率)表示视频。图5a示出了编码过程的示例。图5a示出了将要编码的图像(I_n)；图像块的预测表示(P'_n)；预测误差信号(D_n)；重建的预测误差信号(D'_n)；初步重建的图像(I'_n)；最终重建的图像(R'_n)；变换(T)和逆变换(T^-1)；量化(Q)和逆量化(Q^-1)；熵编码(E)；参考帧存储器(RFM)；帧间预测(P_inter)；帧内预测(P_intra)；模式选择(MS)和过滤(F)。图5b示出了解码过程的示例。图5b示出了图像块的预测表示(P'_n)；重建的预测误差信号(D'_n)；初步重建的图像(I'_n)；最终重建的图像(R'_n)；逆变换(T^-1)；逆量化(Q^-1)；熵解码(E^-1)；参考帧存储器(RFM)；预测(帧间或帧内)(P)；以及过滤(F)。

许多具有媒体功能的设备可以配备有不同类型的运动/压力传感器(例如，陀螺仪、加速度计、气压计等)，其可用于解释设备在时间上相对于先前参考位置的位置差。诸如惯性导航系统(INS)的解决方案使用该方法构建并用于位置跟踪(例如，室内)。这种设备日渐变得更加准确。配备有视频捕获特征的手持设备可以计算差分位置信息，这取决于由记录设备所提供的初始速度和运动传感器数据(例如，加速计传感器)。

如上所述，当前的广播基础架构不能实时传输具有高分辨率的大量内容数据。因此，需要减少所需比特率的量以便使得能够广播这种数据。本发明的实施例使能针对立体和多视点视频内容的高效、智能化时间视点间预测。

考虑到多相机设备的结构和移动，本发明的实施例的目的是找到一个视点用于另一个视点的参考帧。本发明的实施例考虑相机在不同时间的相对位置以及相机的结构，以选择将要被添加到参考帧列表的潜在参考帧。因此，仅在涉及相机移动时才使能本发明的实施例。

图6示出了根据实施例的方法。该方法从已知100多相机设备中的相机的物理距离和相对方向开始，并确定200在第一时间T1与第二时间T2之间相机移动的量和相对方向，其中，T2>T1。确定300第一相机和第二相机在第二时间T2与第一时间T1之间的当前相对移动距离和相对方向。当当前相对移动距离和相对方向已被确定时，将第一相机和第二相机的物理距离和相对方向与所确定的第一相机和第二相机在第二时间T2与第一时间T1之间的当前相对移动距离和相对方向进行比较400。如果第二相机在第二时间T2的位置和方向与第一相机在第一时间T1的位置和方向相同，则第一相机在第一时间T1的解码帧被输入500到第二相机在第二时间T2的参考帧列表中以进行时间视点间预测。

在下文中，以更详细的方式讨论了步骤100-500。

在步骤100，已知在多相机设备的特征中有关相机的物理数据。该数据将包括多相机设备中两个相机的所有可能选择中的相对相机距离和角度间隔。例如，如果多相机设备具有四个相机C1、C2、C3、C4，则存在六个可能的值作为任何两个任意相机之间的相对距离和角度：{C1C2、C1C3、C1C4、C2C3、C2C4、C3C4}。在以下步骤中考虑所有这些相对距离和角度的值，以找到将要编码的当前帧的参考帧。应当理解，任何第一相机与第二相机之间的相对距离和角度不必相同，这意味着C1C2不必与C3C4相同。这取决于多相机设备的结构。

多相机设备可以仅包括如在立体相机中的两个相机，或者其可以包括多个相机，例如，八个相机。这也在图7中示出。图7示出了具有第一相机701和第二相机702的相机设备700。参考标号A表示第一相机701的观看方向，而参考标号B表示第二相机702的观看方向。参考标号C指示没有角度差的相机之间的相对距离。

在步骤200，基于内置移动跟踪器设备(例如，多相机设备中的加速度计或陀螺仪)，计算在第一时间T1与第二时间T2之间相机移动的相对距离和相对方向。根据实施例的捕获设备配备有内置加速度计或陀螺仪或使能跟踪设备移动的任何其它设备。这种跟踪设备使能跟踪设备从在第一时间T1的位置A到在第二时间T2的位置B的移动(其中，T2晚于T1发生，即，T2＝T1+t)。使用内置跟踪设备可以跟踪和保存移动的距离及其方向和角度(或通常的路径)。此特征结合精确示出相机相对于用于测量移动的设备的位置的多相机设备的特征，使得设备能够确定每一个相机在任何时间阶段的精确位置和方向。因此，如果需要，可以搜索所保存的信息以查看并潜在地将每个相机的当前位置和方向与同一或其它相机在任意时间的位置和方向进行比较。

在步骤300，基于步骤200而确定相机的当前相对距离和相对方向。根据实施例，该过程的输入是时间戳T1和T2，输出是与相机在第一时间T1的位置相比，相机在第二时间T2的相对距离和相对方向，其中考虑了来自多相机设备的内置加速度计或陀螺仪的读数。这在图8中示出，其中示出了两个任意相机801a、802b之间的距离D和角度比较AD。在该实施例中，多相机设备801的第一相机801a在第一时间T1和位置A相对于多相机设备802的第二相机802b在第二时间T2和位置B之间的距离D和角度差AD被计算。应当注意，可以以相同的方式实现相机之间的任何其它比较。还应当注意，存在用于确定相机的相对定向的其它方法，这些方法也可用于代替该实施例。

在步骤400，比较来自步骤100和300的值。步骤100的输出(即，相机对之间的相对距离和角度)与步骤300的所有可能组合(即，相对移动差)进行比较。所有可能组合包括在不同时间戳和不同位置的相机位置之间的差。相对移动差与从步骤100已知的相对差相同的相机对是将在其RFL中获得新参考的相机对。在第二时间T2所捕获的内容(即后一帧)当前正在进行编码，并且来自第一时间T1(即，较早时间)的已编码的帧被用作参考。

在步骤500，确定第一相机在第一时间T1的解码帧的参考，并且将其输入到第二相机在第二时间T2将要编码的帧的RFL中。

场景移动(即，运动)量基于场景中静态背景或区域与移动对象或移动区域之间的比率来计算。静态背景越多，场景中的运动越少。类似地，运动部分越多，场景中的运动越多。应当注意，可以基于从一个物理视点而不是从一个相机的视角所捕获的移动来计算场景移动，因为可能存在一些以与移动的相机相同的速度和方向移动的对象，这些对象实际上构成了场景中的运动的一部分，但它们在从相应的相机的视点所捕获的内容中呈现为静态。

参考被输入到RFL中的次序和位置取决于场景中的移动量。移动越少，视点间预测越准确，因此，该参考在将要编码的帧的RFL中的次序越高。移动越多，先前在同一位置和方向所捕获的内容之间的预期相似性越少，因此，该参考在将要编码的帧的RFL中的次序越低。图9示出了步骤500的基于帧的表示，而图10示出了基于多相机设备或立体相机设备1000及其相机1001、1002的位置的步骤500的类似表示。图10示出了相机移动方向T，以及当前帧CF和参考帧FR。应当理解，图10放大了相机移动以阐明本发明构思。图9和10中两个相机的选择是任意的。

在上文中，已经通过实施例描述了一种方法。意识到仅在多相机设备的移动被跟踪时才使能该方法。一旦检测到移动，就可以开始使用算法。

可以考虑使用不同的算法将所选择的帧输入到参考帧列表中。例如，根据实施例，当在先前捕获位置附近捕获当前帧时，参考帧可以在RFL中使用。这意味着在该实施例中，不必要求相对位置和方向精确匹配。根据另一个实施例，仅当相机移动速度快于特定阈值时才使能所提出的算法。在该实施例中，相机移动速度越慢，第一时间与第二时间之间的时间差越大，因此，两个不同时间戳处来自同一视点的内容之间的关系越少。根据又一个实施例，仅当场景内容移动速度慢于特定阈值时才使能所提出的算法。这意味着场景内容的移动速度越高，两个不同时间戳处来自同一视点的内容之间的关系越少。根据再一个实施例，仅当第一时间与第二时间之间的差小于特定阈值时才可以使能所提出的算法。

通过图11的流程图示出了根据实施例的方法。该方法包括：确定1100多相机设备从第一时间到第二时间的移动，该多相机至少包括第一相机和第二相机；选择1110来自第一相机的在第一时间的帧，并将所选择的帧输入1120到来自第二相机的在第二时间的帧的参考帧列表中；其中，第一相机在第一时间的位置和方向与第二相机在第二时间的位置和方向相同，并且其中，第一相机和第二相机不同。

在上文通过各种示例讨论了根据实施例的方法。根据实施例的装置包括用于实现该方法的装置，即，用于确定多相机设备从第一时间到第二时间的移动的装置，其中，该多相机至少包括第一相机和第二相机；用于选择来自第一相机的在第一时间的帧，并将所选择的帧输入到来自第二相机的在第二时间的帧的参考帧列表中的装置；其中，第一相机在第一时间的位置和方向与第二相机在第二时间的位置和方向相同，并且其中，第一相机和第二相机不同。

图12a和12b示出了装置的实施例。图12a示出了根据示例性实施例的视频编码系统的框图，作为电子设备50的示意性框图，其可以包括编解码器。图12b示出了根据实施例的装置的布局。电子设备50例如可以是移动终端或无线通信系统的用户设备，或者相机设备。

装置50可以包括用于集成和保护设备的外壳30。装置50还可以包括液晶显示器形式的显示器32。在本发明的其它实施例中，显示器可以是适合于显示图像30或视频的任何适合的显示技术。装置50还可以包括小键盘34。在本发明的其它实施例中，可以采用任何适合的数据或用户接口机制。例如，用户接口可以实现为作为触敏显示器的一部分的虚拟键盘或数据输入系统。

该装置可以包括麦克风36或任何适合的音频输入，其可以是数字或模拟信号输入。装置50还可以包括音频输出设备，在本发明的实施例中，音频输出设备可以是以下中的任何一个：耳机38、扬声器或模拟音频或数字音频输出连接。装置50还可以包括电池40(或者在本发明的其它实施例中，该设备可以由任何适合的移动能量设备供电，例如，太阳能电池、燃料电池或发条发电机)。该装置还可以包括能够记录或捕获图像和/或视频的相机42。相机42是至少具有两个相机的多相机。相机能够记录或检测各个帧，然后将这些帧传送给编解码器54或控制器以进行处理。该装置可以在传输和/或存储之前从另一个设备接收用于处理的视频和/或图像数据。

装置50还可以包括红外端口，其用于与其它设备进行短距离视线通信。根据实施例，该装置还可以包括任何适合的短程通信方案，例如，蓝牙无线连接或USB(通用串行总线)/火线有线连接。

装置50可以包括用于控制装置50的控制器56或处理器。控制器56可以连接到存储器58，存储器58可以存储图像、视频和/或音频数据形式的数据，和/或还可以存储用于在控制器26上实现的指令。控制器56还可以连接到编解码器电路54，编解码器电路54适用于执行图像、视频和/或音频数据的编码和解码，或者协助由控制器执行的编码和解码。

装置50还可以包括读卡器48和智能卡46，例如，UICC(通用集成电路卡)和UICC读卡器，用于提供用户信息并且适用于提供用于在网络上对用户进行认证和授权的认证信息。

装置50可以包括无线接口电路52，其连接到控制器并且适用于生成无线通信信号，例如以用于与蜂窝通信网络、无线通信系统或无线局域网通信。装置50还可以包括天线44，其连接到无线接口电路52以将在无线接口电路52处生成的射频信号发送到其它装置，以及从其它装置接收射频信号。

各种实施例可以提供多种优点。例如，可以极大地降低比特率，这尤其有利于任何多相机手持设备，例如，袖珍式立体相机或包括立体相机的移动电话。

本发明的各种实施例可以利用保存在存储器中的计算机程序代码来实现，并使相关装置实施本发明。例如，设备可以包括用于处理、接收和发送存储器中的数据、计算机程序代码的电路和电子设备，以及处理器，其在运行计算机程序代码时使设备执行实施例的特征。此外，诸如服务器的网络设备可以包括用于处理、接收和发送存储器中的数据、计算机程序代码的电路和电子设备，以及处理器，其在运行计算机程序代码时使网络设备执行实施例的特征。

如果需要，在本文中讨论的不同功能可以采用不同顺序执行和/或与其它功能同时执行。此外，如果需要，上述功能和实施例中的一个或多个可以是可选的，也可以进行组合。

虽然在独立权利要求中阐述了实施例的各个方面，但是其它方面包括所描述的实施例和/或从属权利要求中的特征与独立权利要求的特征的其它组合，并且不仅仅是在权利要求中明确阐述的组合。

在此还应当注意，虽然以上描述了示例性实施例，但是这些描述不应被视为具有限制性意义。而是存在可以在不背离在所附权利要求中限定的本公开的范围的情况下而进行的多种变形和修改。

Claims

1.一种方法，包括：

由多相机设备的多个相机同步捕获相同的场景，所述多个相机至少由第一相机和第二相机组成，并且彼此分开定位；

确定所述多相机设备在第一时间与第二时间之间的移动；

选择来自所述第一相机的在所述第一时间的帧用作用于对来自所述第二相机的在所述第二时间的帧的视点间预测的参考帧；以及

将所选择的帧输入到来自所述第二相机的在所述第二时间的所述帧的视点间预测参考帧列表中；

其中，所述第一相机在所述第一时间的位置和方向与所述第二相机在所述第二时间的位置和方向相同，并且其中，所述第一相机和所述第二相机不同。

2.根据权利要求1所述的方法，还包括：基于相机的加速度计或陀螺仪，确定所述相机的位置和方向。

3.根据权利要求1所述的方法，其中，所述多相机是立体相机。

4.根据权利要求1或2或3所述的方法，还包括：

确定所述第一相机在所述第二时间相对于所述第一相机在所述第一时间的当前相对距离和角度；

确定所述第二相机在所述第二时间相对于所述第二相机在所述第一时间的当前相对距离和角度；

确定所述第二相机在所述第二时间相对于所述第一相机在所述第一时间的当前相对距离和角度；以及

确定所述第一相机在所述第二时间相对于所述第二相机在所述第一时间的当前相对距离和角度。

5.根据权利要求4所述的方法，还包括：将所述第一相机在所述第一时间相对于所述第二相机在所述第一时间的相对距离和角度分别与以下中的一项相比较：

所述第一相机在所述第二时间相对于所述第一相机在所述第一时间的当前相对距离和角度；

所述第二相机在所述第二时间相对于所述第二相机在所述第一时间的当前相对距离和角度；

所述第二相机在所述第二时间相对于所述第一相机在所述第一时间的当前相对距离和角度；或者

所述第一相机在所述第二时间相对于所述第二相机在所述第一时间的当前相对距离和角度。

6.根据权利要求1或2或3所述的方法，其中，来自所述第一相机的参考帧在来自所述第二相机的所述帧的所述参考帧列表中的次序和位置取决于以下中的至少一项：

在所述第二时间与所述第一时间之间在场景中的移动量；

所述第二时间与所述第一时间之间的时间差。

7.一种装置，包括：

至少一个处理器；

包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少执行以下操作：

确定所述多相机设备在第一时间与第二时间之间的移动；

8.根据权利要求7所述的装置，还包括：被配置为使所述装置基于相机的加速度计或陀螺仪，确定所述相机的位置和方向的计算机程序代码。

9.根据权利要求7所述的装置，其中，所述多相机是立体相机。

10.根据权利要求7或8或9所述的装置，还包括：被配置为使所述装置执行以下操作的计算机程序代码：

11.根据权利要求10所述的装置，还包括：被配置为使所述装置将所述第一相机在所述第一时间相对于所述第二相机在所述第一时间的相对距离和角度分别与以下中的一项相比较的计算机程序代码：

12.根据权利要求7或8或9所述的装置，其中，来自所述第一相机的参考帧在来自所述第二相机的所述帧的所述参考帧列表中的次序和位置取决于以下中的至少一项：

在所述第二时间与所述第一时间之间在场景中的移动量；

所述第二时间与所述第一时间之间的时间差。

13.一种装置，包括：

用于由多相机设备的多个相机同步捕获相同的场景的装置，其中，所述多个相机至少由第一相机和第二相机组成，并且彼此分开定位；

用于确定所述多相机设备在第一时间与第二时间之间的移动的装置；

用于选择来自所述第一相机的在所述第一时间的帧用作用于对来自所述第二相机的在所述第二时间的帧的视点间预测的参考帧的装置；以及

用于将所选择的帧输入到来自所述第二相机的在所述第二时间的所述帧的视点间预测参考帧列表中的装置；

14.根据权利要求13所述的装置，还包括：用于基于相机的加速度计或陀螺仪，确定所述相机的位置和方向的装置。

15.根据权利要求13所述的装置，其中，所述多相机是立体相机。

16.根据权利要求13或14或15所述的装置，还包括：用于执行以下操作的装置：

17.根据权利要求16所述的装置，还包括：用于将所述第一相机在所述第一时间相对于所述第二相机在所述第一时间的相对距离和角度分别与以下中的一项相比较的装置：

18.根据权利要求13或14或15所述的装置，其中，来自所述第一相机的参考帧在来自所述第二相机的所述帧的所述参考帧列表中的次序和位置取决于以下中的至少一项：

在所述第二时间与所述第一时间之间在场景中的移动量；

所述第二时间与所述第一时间之间的时间差。

19.一种非暂时性计算机可读介质，在其上存储有计算机程序代码，所述计算机程序代码被配置为当在至少一个处理器上执行时使装置或系统：

接收关于由多相机设备的多个相机同步捕获相同的场景的可视数据，所述多个相机至少由第一相机和第二相机组成，并且彼此分开定位；

确定多相机设备在第一时间与第二时间之间的移动；

20.根据权利要求19所述的非暂时性计算机可读介质，还存储有：被配置为使装置或系统执行根据权利要求2至6中任一项所述的方法的计算机程序代码。