CN108881713A

CN108881713A - 包括摄像机和客户端设备的系统及通过该系统执行的方法

Info

Publication number: CN108881713A
Application number: CN201810431240.5A
Authority: CN
Inventors: 维克托·埃德帕尔姆; 袁嵩; 亚历山大·马丁斯
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2017-05-16
Filing date: 2018-05-08
Publication date: 2018-11-23
Anticipated expiration: 2038-05-08
Also published as: EP3404913A1; CN108881713B; US10511769B2; TWI728244B; EP3404913B1; KR20180125878A; US20180338084A1; JP6666949B2; JP2018201197A; TW201907702A; KR102082327B1

Abstract

本发明涉及包括摄像机和客户端设备的系统及通过该系统执行的方法。提供了一种在包括摄像机和客户端设备的系统中执行的方法。摄像机通过使用具有部分重叠的视野的多个传感器来同时捕捉多个图像。图像的重叠部分被识别，并且图像被拼接以生成全景图像。在拼接图像时，仅来自重叠部分中的各图像中的一个图像的图像数据被包括，并且来自重叠部分中的其他图像的图像数据被忽略。全景图像和被忽略的图像数据被编码并且以编码后的视频流传输到客户端设备。客户端设备解码编码后的视频流，并且如果客户端设备是定制的，则其使用在生成全景图像时被摄像机忽略的图像数据来更新与多个图像的重叠部分对应的部分中的全景图像。

Description

包括摄像机和客户端设备的系统及通过该系统执行的方法

技术领域

本发明涉及现场多传感器摄像机。具体地，本发明涉及使用具有部分重叠的视野的多个图像传感器来从通过摄像机捕捉的多个图像中生成全景图像。

背景技术

具有多个图像传感器的多传感器摄像机越来越流行，多个传感器彼此相邻安装以用于监视场景，例如用于监控应用。从多个图像传感器捕捉的图像可用于创建场景的全景图像。创建这种全景图像涉及到许多处理步骤。来自图像传感器的图像经常需要转换以减少来自透镜的像差，需要识别来自邻近图像传感器的图像重叠，并且重叠部分经常需要处理，从而对来自彼此相邻安装的图像传感器捕捉的图像创建平滑的拼合(stitching)或混合。

全景图像的创建，并且具体地为了实现平滑拼合而进行的处理，因此需要相当的处理要求。以高速度执行此图像处理(诸如在高帧频多传感器监视摄像机中)，需要大量的处理能力。由于处理能力通常是摄像机中的受限资源，因此在创建全景图像时，减轻摄像机的处理要求是令人感兴趣的。

发明内容

鉴于上述，因此，本发明的一个目的是在创建全景图像时减轻摄像机的处理要求。

根据本发明的第一方面，上述目的是通过一种在包括摄像机和客户端设备的系统中执行的方法来实现的。该方法包括：

摄像机通过使用具有部分重叠的视野的多个图像传感器来同时捕捉多个图像，

摄像机将多个图像的重叠部分识别为多个图像中的至少两个图像重叠的部分，

摄像机通过将多个图像的部分拼接在一起而生成与多个图像传感器的视野的结合对应的全景图像，

其中，针对多个图像的每一个重叠部分，摄像机包括来自全景图像中重叠的至少两个图像中的一个图像的图像数据，并且摄像机忽略来自重叠的至少两个图像之中的其他图像的图像数据，

摄像机对全景图像和在生成全景图像时被忽略的图像数据进行编码，并且以编码后的视频流将它们传输到客户端设备，

客户端设备接收并解码编码后的视频流，并且

在客户端设备被定制成用于处理在生成全景图像时被摄像机忽略的图像数据的情况下，客户端设备使用在生成全景图像时被摄像机忽略的图像数据来更新与多个图像的重叠部分对应的部分中的全景图像。

根据该方法，用于生成全景图像的处理的部分留给客户端。通过将来自多个图像的图像数据的部分拼接在一起，在摄像机处生成简单的全景图像。然而，最为处理密集的处理的部分(即在重叠的图像部分中混合图像数据的处理从而实现多个图像的平滑拼合或更高级的拼合技术)被留给了客户端。以这种方式，摄像机上的处理负担被减轻，并且相反，监视摄像机能够处理由多个图像传感器捕捉的视频流的较高帧速率。

在摄像机侧仍然生成简单的全景图像并且对其进行编码。在来自邻近图像传感器的图像重叠的部分，仅使用来自邻近图像传感器中的一个图像传感器的图像数据，并且在摄像机处生成全景图像时忽略来自其他邻近图像传感器的图像数据。为了给客户端设备提供对来自多个图像传感器的图像执行更高级的拼合的构建块，诸如在重叠部分中混合图像数据，在摄像机处创建全景图像时被忽略的图像数据也被编码并传输到客户端。

针对一些客户端设备，在摄像机处生成的全景图像足以满足其目的，或者处理能力太有限，无法执行任何高级的拼合处理。例如，如果客户端是在移动设备或例如在巡逻保安人员使用的平板上实现的，就是这种情况。本文中被称为非定制设备的这种客户端设备可以解码和显示摄像机处生成的全景图像。然而，本文中被称为定制客户端设备的更高级客户端，应该能够从附加信息中获益，并且能够使用在生成全景图像时被摄像机忽略的图像数据来更新重叠部分中的全景图像。以这种方式，定制客户端设备可以改善全景图像的平滑性，即，例如通过混合来自重叠部分中的多个图像的图像数据，使各个图像之间的过渡更加平滑和无缝。此外，这允许定制客户端设备选择如何执行图像数据的混合。因此，不同的定制客户端设备可以根据它们的需要而使用不同的混合图像数据的方法。举例来说，定制客户端可以在具有用于监控中心的大处理能力的高级计算机上实现。

本文所使用的全景图像通常意味着覆盖多个图像的组合视图的图像。通过将多个图像的与图像传感器的部分重叠的视野对应的部分拼接在一起，生成全景图像。因此，产生的全景与多个图像传感器的视野的结合(即，多个图像传感器的视野的组合)对应。

在生成全景图像时被摄像机忽略的图像数据通常意味着该图像数据不包括在全景图像中。

被定制成用于处理在生成全景图像时被摄像机忽略的图像数据的客户端设备通常意味着，适于识别视频流中被忽略的图像数据并且使用被忽略的图像数据以用于更新接收的全景图像的客户端设备。

在客户端中的全景图像的更新，可以通过将摄像机生成的全景图像的与原始图像的重叠部分对应的部分中的图像数据与在生成全景图像时被摄像机忽略的附加接收的图像数据进行混合来执行。以这种方式，客户端设备可以将原始图像拼合在一起，从而创建更平滑的全景图像。本文所使用的混合通常意味着形成加权平均值。更详细地，针对全景图像的与多个图像的重叠部分对应的每一个部分，客户端设备可通过计算全景图像和针对重叠部分被摄像机忽略的图像数据的加权平均值而更新全景图像。如本文所使用的多个图像的拼合意味着多个图像组合成单个图像，并且意味着将多个图像的重叠部分中的图像数据组合在一起，即以一种方式或其它方式混合，从而在多个图像之间实现平滑过渡。

加权平均值通常在重叠部分中逐像素地计算。在计算加权平均值时使用的权重可以按照像素级进行选择。因此，权重可以在整个重叠部分中变化。权重可以以不同的方式选择或计算。在一些实施例中，基于重叠部分中的图像数据计算权重，而在其它实施例中，权重独立于重叠部分中的图像数据计算。

作为后一种情况的示例，加权平均值的权重基于像素到全景图像的与多个图像的重叠部分对应的部分的边缘的接近程度而按照像素级进行选择。这将导致对原始图像的平滑拼合。例如，假设两个邻近传感器的图像重叠，并且来自两个传感器中的第一传感器的图像数据被包括在与重叠对应的部分中的全景图像中，并且除了全景图像之外，重叠中的两个传感器中的另一传感器的图像数据被传输到客户端设备。来自第一传感器的图像数据的权重可以是从像素到来自第一传感器的图像的重叠部分与非重叠部分之间的边界的距离的递减函数。类似地，来自第二传感器的图像数据的权重可以是从像素到来自第二传感器的图像的重叠部分与非重叠部分之间的边界的距离的递减函数。权重可以归一化在区间[0，1]中，并且针对像素的权重的总和可以等于一。在这种情况下，混合可以称为α混合。

甚至为了进一步改善拼合的平滑性，加权平均值的权重可以是像素到全景图像的与多个图像的重叠部分对应的部分的边缘的接近程度的平滑函数。平滑函数意味着函数是连续的，并且优选地，也是可导的。

根据进一步的实施例，重叠部分中的图像数据的低频内容可以不同于图像数据的高频内容而混合。低频内容通常意味着图像数据的空间频率低于第一阈值，而高频内容通常意味着图像数据的空间频率等于或大于第二阈值。第二阈值可以等于第一阈值或大于第一阈值。

通常，低频内容表示图像数据中的平滑变化，而高频内容表示图像数据中的不规则变化，例如噪声。由于与高频内容相比，低频内容更影响合成全景图像的平滑程度，因此与高频相比，低频内容的混合往往更加重要。这可以通过针对高频和低频使用不同的混合策略来实现。更具体地，针对全景图像与多个图像的重叠部分对应的每一部分，这可以通过以下方式来实现：

客户端设备计算全景图像和针对重叠部分的被摄像机忽略的图像数据的第一加权平均值，其中第一加权平均值关于低于第一阈值的空间频率计算，

客户端设备计算全景图像和针对重叠部分被摄像机忽略的图像数据的第二加权平均值，其中第二加权平均值关于等于或者高于第二阈值的空间频率计算，第二阈值大于或者等于第一阈值，

其中，全景图像通过合并第一加权平均值和第二加权平均值而在与多个图像的重叠部分对应的每一个部分中被更新，并且

其中，用于计算第一加权平均值和第二加权平均值的权重被不同地选择。

根据示例性实施例，第一加权平均值的权重是到全景图像的与多个图像的重叠部分对应的部分的边缘的接近程度的平滑函数，并且其中第二加权平均值的权重取决于到全景图像的与多个图像的重叠部分对应的部分的边缘的接近程度而为零或一。因此，这样就可以在最重要的低频给出平滑混合。对于高频，不会发生混合。

由多个传感器捕捉的多个图像通常是对准的。该对准取决于对多个传感器进行的校准过程产生的校准数据。该对准针对距离摄像机的某距离通常是最佳的，但由于视差，针对其它距离，该对准是次优的。结果，可能会发生两个邻近图像传感器在重叠部分中的不同像素位置处描绘场景(针对校准是次优的而位于与摄像机的一距离处)中的对象。在这种情况下，可能期望只使用描绘来自各图像传感器中的一个图像传感器的对象的图像数据，从而在全景图像中不具有对象的副本。

更详细地，该方法可进一步包括：

客户端设备识别全景图像的与多个图像的重叠部分对应的部分中并且在生成全景图像的该部分时被摄像机忽略的图像数据中的对象，

其中，如果在全景图像的与多个图像的重叠部分对应的部分中并且在生成全景图像的该部分时被摄像机忽略的图像数据中识别到对象，则针对被识别为属于该对象的像素，全景图像和在生成该部分时被摄像机忽略的图像数据中的一个的权重被设定为零。

应该理解的是，所识别的对象可以是对象的一部分，诸如在全景图像的与多个图像的重叠部分对应的部分中被局部描绘的并且在生成全景图像的该部分时被摄像机忽略的图像数据局部描绘的对象。

客户端设备不仅可以使用所接收的数据来更新全景图像，从而提供平滑的全景图像，还可以将所接收的数据用于其他目的。例如，在对视频流进行取证分析时(诸如在识别场景中存在的人时)，具有对由两个不同图像传感器捕捉的场景的相同区域进行描绘的图像数据可能是一个优点。

客户端设备还可以使用所接收的数据来恢复多个图像。这是可能的，因为所提出的方法在除了由编码器实施的压缩之外没有图像数据被摄像机丢弃的意义上说是无损耗的。具体地，来自所有原始图像的非重叠部分和重叠部分的图像数据在客户端处接收的数据中表示。因此，该方法可进一步包括：客户端设备从全景图像和在生成全景图像时被忽略的图像数据中恢复多个图像。

根据进一步的实施例，客户端设备可以使用所接收的数据来获得关于场景中的对象的深度信息。由于多个图像传感器的视差，所以这是可能的。更详细地，客户端设备可基于全景图像和在生成全景图像时被摄像机忽略的图像数据，针对全景图像的与多个图像的重叠部分对应的部分而计算深度信息。

如上面进一步提及的，所有客户端设备可能未被定制成执行混合或更高级的拼合过程。这样的客户端设备可以简单地解码和显示所接收的全景图像，并且忽略与在生成全景图像时被摄像机忽略的图像数据对应的任何附加数据。更具体地，在客户端设备未被定制成用于处理在生成全景图像时被摄像机忽略的图像数据的情况下，客户端设备可显示全景图像。更具体地，在客户端设备未被定制成用于处理在生成全景图像时被摄像机忽略的图像数据的情况下，客户端设备可显示全景图像。

如上面进一步提及的，全景图像和采用来自在生成全景图像时被摄像机忽略的多个图像的重叠部分的图像数据形式的附加信息被编码，并且以编码后的视频流传输到客户端设备。由于编码后的视频流可以由不同类型的客户端设备接收，因此其可以被定制成或不可被定制成用于处理在生成全景图像时被摄像机忽略的图像数据，它是有利的，附加信息的传输是灵活的，使得非定制设备仍然可以根据目前的视频解码标准来解码和显示所接收到的视频流。

为了实现这一点，全景图像可以使用标准视频编码方案编码为视频流的视频帧。附加信息(即来自未包括在全景图像中的重叠部分的图像数据)可以被编码为附加编码项，其通过使用时间戳信息而链接到编码后的视频流。更详细地，全景图像可被编码为通过编码后的视频流中的时间戳标记的视频帧，并且摄像机通过同一时间戳标记在生成全景图像时被忽略的编码后的图像数据。

根据实施例，在生成全景图像时被忽略的图像数据在与全景图像相同的视频帧中被编码为附加编码块和/或片段。以这种方式，附加的信息被包括在与全景图像相同的视频帧中。然而，非定制设备可以忽略附加编码块和/或片段，例如通过指示附加编码块和/或片段为“非显示”，或通过在帧数据中包括附加片段和/或块但使用未指示存在附加片段和/或块的帧头。

可替代地，在生成全景图像时被忽略的图像数据可以被编码为一个或多个独立的视频帧。更详细地，在生成全景图像时被忽略的重叠部分中的图像数据可以被编码为独立的视频帧，这些视频帧对于包括全景图像的视频帧而言是附加的。在独立的视频帧中，被忽略的图像数据通常位于如在全景图像中的对应像素的位置处。剩余的像素位置可以被编码为跳块。然后，非定制客户端设备的标准视频解码器不能够简单地显示附加的帧，而客户端设备的定制解码器将指示以识别这些视频帧并且使用它们以用于更新全景图像。

一个或多个独立的视频帧可以被标记为非显示帧。以这种方式，定制设备的实施可用非显示帧的标准的标准解码器将容易地能够忽略独立的视频帧的附加信息。针对不能使用非显示帧的视频解码标准，反而可以参考视频流中的较早位置或稍后位置而用显示计数值标记一个或多个独立的视频帧，以致于诱使标准解码器不显示独立的视频帧。

根据本发明的第二方面，上述目的是由一种系统实现的，该系统包括：

摄像机，该摄像机包括具有部分重叠的视野的多个图像传感器，多个图像传感器被配置成同时捕捉多个图像，

其中，该摄像机进一步配置成：

将多个图像的重叠部分识别为多个图像中的至少两个图像重叠的部分，

通过将多个图像的部分拼接在一起而生成与多个图像传感器的视野的结合对应的全景图像，其中针对多个图像的每一个重叠部分，摄像机被配置成包括来自全景图像中重叠的至少两个图像中的一个图像的图像数据并且忽略来自重叠的至少两个图像之中的其他图像的图像数据，以及

对全景图像和在生成全景图像时被忽略的图像数据进行编码，并且以编码后的视频流将它们传输到客户端设备，

该系统进一步包括：

客户端设备，该客户端设备被配置成接收和解码编码后的视频流，并且使用在生成全景图像时被摄像机忽略的图像数据来更新与多个图像的重叠部分对应的部分中的全景图像。

第二方面通常可具有与第一方面相同的特征和优点。进一步注意到，本发明涉及所有可能的特征组合，除非另外明确说明。本文公开的任何方法的步骤不必按照所公开的确切顺序执行，除非明确说明。

附图说明

通过本发明的优选实施例的以下阐释性的和非限制性的详细描述，可以更好地理解本发明的上述以及附加的对象、特征和优点，参考附图，其中相同的附图标记将用于相似的元件，其中：

图1示意性地图示根据实施例的系统。

图2示意性地图示通过多传感器摄像头捕捉的图像。

图3示意性地图示根据实施例的摄像机的内部部件。

图4示意性地图示根据实施例的客户端设备的内部部件。

图5示意性地图示根据实施例的由多传感器摄像机捕捉的转换后的和对准后的图像，以及在生成全景图像时被摄像机忽略的图像数据。

图6示意性地图示根据实施例的用于计算加权平均值的权重选择。

图7是根据实施例的方法的流程图。

具体实施方式

现在，将在下文中参考附图更完整地描述本发明，在附图中示出了本发明的实施例。本文公开的系统和设备将在操作期间被描述。

图1图示系统100，系统100包括具有多个图像传感器103的摄像机102，以及一个或多个客户端设备104a、104b、104c。摄像机102可以是可见光摄像机、热成像摄像机或者飞行时间(ToF)摄像机。摄像机102被设置成例如经由网络106与一个或多个客户端设备通信。通信可以是经由有线的或无线的。

一个或多个客户端设备104a、104b、104c可以是各种类型的。在所图示的示例中，客户端设备104a是移动设备，客户端设备104b是笔记本电脑，并且客户端设备104c是计算机。客户端设备104a、104b、104c可以用于不同的目的，并且也可以具有不同的处理能力。例如，一方面，作为移动设备的客户端设备104a可以由正在进行巡逻的保安人员使用，保安人员经由该移动设备可以查看由摄像机102生成的全景图像。鉴于移动设备的受限处理能力，客户端设备104a可能无法对接收到的全景图像进行任何进一步的处理。同时，考虑到移动设备的小屏幕及其使用的情况，从摄像机102接收到的全景图像针对为保安人员提供由摄像机102的传感器103捕捉的视图的概观而言质量足够好。另一方面，计算机104c可以是监控中心中的高级计算机。照此，至少与移动客户端设备104a相比，它可以具有较大的处理能力。客户端设备104c可以被定制成处理从摄像机102接收到的全景图像，从而例如使得用于生成全景图像的图像之间的转换更加平滑。结果，可以向监控中心的操作员显示更高质量的改善的全景图像。

在下面，客户端设备适于解码所接收的比特流中的附加信息，并且基于该附加信息处理接收的全景图像被称为定制客户端设备，所接收的比特流与在摄像机侧被忽略的多个图像的重叠部分中的图像数据对应。与此相反，不适于解码附加信息或不适于处理所接收的全景图像的客户端设备被称为非定制客户端设备。在上面的示例中，客户端设备104a因此是非定制客户端设备，并且客户设备104c是定制客户端设备。

摄像机102的多个传感器103具有部分重叠的视野。这在图2中进一步图示，图2示出由摄像机102的多个传感器103并发(即，同时)捕捉的多个图像A、B、C、D。因此，图像A、B、C、D中的每一个与图像传感器103中的不同的一个图像传感器对应。在这种情况下，描绘了四个传感器103和四个图像，尽管应理解传感器的数目可以是大于或等于2的任意数。在所图示的示例中，图像传感器在一维阵列中彼此相邻安装。然而，应该理解的是，图像传感器可以安装在其他阵列状图案中，诸如安装在二维阵列上或安装在球体上。

由于传感器的视野重叠，因此图像A、B、C、D彼此重叠。换句话说，如由图2中的阴影线区域所指示的，多个图像中存在重叠部分。

图3图示摄像机102的内部部件。摄像机102包括多个传感器103、全景图像生成器302、编码器304和发射器306。

图4图示定制客户端设备104c的内部部件。客户端设备104c包括接收器402、解码器404和拼合部件406。客户端设备104c还包括显示器。非定制客户端通常包括接收器和解码器。但是，非定制客户端通常不包括拼合部件。

因此，摄像机102包括各种部件302、304和306，它们被配置成实现摄像机102的功能。类似地，客户端设备104c包括各种部件402、404和406，它们被配置成实现客户端设备104c的功能。具体地，每个图示的部件与摄像机102的功能或客户端设备104c的功能对应。一般来说，摄像机102和客户端设备104c可以包括电路，该电路被配置成实现部件302、304、306、402、404、406，并且更具体地，实现它们的功能。

在硬件实现方式中，部件302、304、306、402、404、406中的每一个可以与专用于且专门设计成提供部件功能的电路对应。电路可以是一个或多个集成电路的形式，诸如一个或多个专用集成电路。举例来说，全景图像生成器302可以包括在使用时生成全景图像的电路。

在软件实现方式中，电路反而可以是处理器的形式，处理器诸如微处理器或中央处理单元，处理器与存储在(非瞬态)计算机可读介质(诸如非易失性存储器)上的计算机代码指令相关联，计算机代码指令使得摄像机102和客户端设备104c执行本文公开的任何方法。在这种情况下，部件302、304、306可以因此每个与存储在摄像机102中的计算机可读介质上的计算机代码指令的一部分对应，计算机代码指令在由摄像机中的处理器执行时，使得摄像机102执行部件的功能。类似地，部件402、404、406可以因此每个与存储在客户端设备104c中的计算机可读介质上的计算机代码指令的一部分对应，计算机代码指令在由客户端设备104c中的处理器执行时，使得客户端设备104c执行部件的功能。

应该理解的是，也可以将硬件和软件实现方式结合起来，这意味着部件302、304、306、402、404、406中的一些部件的功能是在硬件中实现的，而其他部件的功能是在软件中实现的。

包括摄像机102和客户端设备104a、104b、104c的系统100的操作将结合图1、图2、图3、图4、图5和图7的流程图进行阐释。

在步骤S02，摄像机102使用多个图像传感器103来捕捉多个图像A、B、C、D。更详细地，多个传感器103每个被配置成捕捉场景的视频流308a、308b、308c、308d。每个视频流是视频帧中排列的图像序列。多个图像传感器103被同步使得它们同时捕捉图像。由第一传感器捕捉的视频流308a中的每一个帧因此具有在由其他图像传感器捕捉的视频流308b、308c、308d中的每一个视频流中对应的帧。图像A、B、C、D与由图像传感器104同时捕捉的视频流308a、308b、308c、308d的帧对应。

视频流308a、308b、308c和308d被输入到全景图像生成器302。当视频流308a、308b、308c、308d的帧到达全景图像生成器302时，全景图像生成器302可以变换和对准图2中所示的多个图像A、B、C、D，多个图像A、B、C、D与视频流308a、308b、308c、308d同时接收的帧对应。进行变换和对准是为了补偿来自将场景成像到图像传感器103的镜头的像差，有时也被称为桶形畸变校正，并且将多个图像投影到共同表面上从而补偿不是从一个位置获取的多个图像的事实。这类变换和对准在现有技术中是众所周知的。更详细地，图像传感器103不安装在同一物理位置上，并且通常还被安装以查看不同的方向。由于期望合成的全景图像看起来像是从一个位置而不是从彼此偏移的位置获取的，因此变换多个图像从而投影到共同表面上，诸如柱面或球体。所进行的变换和对准对于不同的传感器而言是不同的。然而，通常针对来自同一图像传感器103的每个帧进行相同的变换和对准。要应用的变换和对准可以根据图像传感器103的对准来确定，并且然后，确定的变换和对准可用于所有将来帧。

在变换和对准之后，图像A、B、C、D在图5中示出为项目500。图像A、B、C、D具有重叠部分502a、502b、502c。为了阐释的目的，重叠部分502a、502b、502c示出为具有矩形形状。然而，应该理解的是，由于对准和变换，重叠部分通常具有非矩形形状。下面的描述同样适用于具有非矩形形状的重叠部分。进一步，应该理解的是，变换和对准通常呈现图像A、B、C、D非矩形的边缘。因此，可以将裁剪应用于图像A、B、C、D以还原如图5中所图示的矩形形状500。这有时可以通过在矩形图像中填充“孔”来补充，即矩形形状500内的没有值的像素，即通过黑色像素(值为零的像素)。在每一个重叠部分502a、502b、502c中，多个图像A、B、C、D中的至少两个图像重叠。这意味着，针对每一个重叠部分502a、502b、502c，存在从至少两个图像可获得的图像数据。在此示例中，重叠部分502a中存在从图像A和图像B可获得的图像数据，重叠部分502b中存在从图像B和图像C可获得的图像数据，并且重叠部分502c中存在从图像C和图像D可获得的图像数据。在非重叠部分504a、504b、504c和504d中，可获得仅来自一个图像的图像数据，在这种情况下为来自部分504a中的图像A、来自部分504b中的图像B、来自部分504c中的图像C、以及来自图像部分504d中的图像D。由于变换和对准，与图2中所示的形状相比，重叠部分502a、502b、502c的形状已经被改变。

然后，在步骤S04，全景图像生成器302继续以识别多个图像A、B、C、D中的重叠部分502a、502b、502c。可以通过使用图像处理来识别重叠部分502a、502b、502c，该图像处理例如通过执行图像相关性或者通过在多个图像中识别和匹配特征来匹配图像。然而，一旦进行了图像传感器103的初始校准，所有将来帧中的重叠部分将是相同的。因此，基于来自图像传感器103的校准的校准数据，可以识别重叠部分502a、502b、502c。该识别可以仅基于校准数据，或者此外可以使用图像处理以微调来自于校准数据的识别。步骤S04也可以包括非重叠部分504a、504b、504c和504d的识别。

在步骤S06，摄像机100的全景图像生成器302生成全景图像。通过将多个图像A、B、C、D的所选择部分拼接在一起，即通过将多个图像A、B、C、D的所选择部分并排以形成全景图像，从而生成全景图像。具体地，所有图像A、B、C、D的非重叠部分504a、504b、504c、504d与来自图像A、B、C、D中的一些图像的重叠部分拼接在一起。然而，为了节省处理能力，在摄像机100中没有发生图像数据的混合。这进一步在示出了全景图像510的图5中图示。全景图像510表示多个图像传感器103的视野的结合。全景图像510包括与多个图像A、B、C、D的非重叠部分504a、504b、504c和504d对应的部分514a、514b、514c和514d。全景图像510还包括与多个图像A、B、C、D的重叠部分502a、502b、502c对应的部分512a、512b、512c。

如前所述，图像数据可以从在每一个非重叠部分504a、504b、504c和504d中的图像A、B、C、D中的单个图像获得。因此，在全景图像510的每一个对应部分514a、514b、514c和514d中，全景图像生成器302包括来自单个图像的图像数据。在这种情况下，全景图像生成器302包括来自部分514a中的图像A的图像数据、来自部分514b中的图像B的图像数据、来自部分514c中的图像C的图像数据、以及来自部分514d中的图像D的图像数据。

针对重叠部分502a、502b、502c，图像数据可从图像A、B、C、D中的几个中获得。在此示例中，来自两个图像的图像数据在每个重叠部分是可用的。针对全景图像510的对应部分512a、512b、512c，全景图像生成器302包括仅来自图像数据可用的图像A、B、C、D中的一个图像的图像数据。因此，全景图像生成器302针对每一个重叠部分选择一个图像，并且在全景图像510的对应部分中包括来自所选择图像的图像数据。在所图示的示例中，全景图像生成器302包括来自全景图像510的部分512a中的图像A的图像数据、来自部分512b中的图像B的图像数据、以及来自部分512c中的图像C的图像数据。因此，为了生成全景图像510，在此示例中，全景图像生成器302将图像A、B、C、D的非重叠部分以及图像A、B、C的重叠部分拼接在一起。因此，当图像A、B、C、D中的至少两个图像重叠时，只有各图像中的一个图像被选择用于对应的重叠部分，并且与图像的非重叠部分拼接在一起。如果两个或两个以上的图像重叠，则各图像中的任何一个图像可以被选择用于对应的重叠部分。当生成全景图像510的部分512a、512b、512c时，全景图像生成器302因此忽略了来自所有图像的图像数据，除了来自所选择的图像的图像数据之外。在这种情况下，当生成部分512a时，来自图像B的图像数据被忽略，当生成部分512b时，来自图像C的图像数据被忽略，当生成部分512c时，来自图像D的图像数据被忽略。当生成全景图像510时，被全景图像生成器302忽略的图像数据如图5中的项目520那样被图示。项目522a、522b和522c分别与当生成全景图像的部分512a、512b和512c时被全景图像生成器302忽略的图像数据对应。

即使在生成全景图像510时，全景图像生成器302忽略了一些图像数据，全景图像生成器302也不丢弃被忽略的图像数据。相反，且如图3中所示，全景图像生成器302将全景图像510和被忽略的图像数据520转发到编码器304。被忽略的图像数据520连同位置信息(例如以图像坐标的形式)被转发，位置信息识别全景图像510的对应部分512a、512b、512c。

应该理解的是，当视频流308a、308b、308c、308d的新帧到达全景图像生成器302时，重复以上步骤。因此，全景图像510的流和被忽略的图像数据520的流被依次转发到编码器304。

当编码器304顺序接收全景图像510和被忽略的图像数据520时，在步骤S08继续对全景图像510和被忽略的图像数据520进行编码。编码器304可通常使用标准的视频编码方案(诸如H.264或H.265)来将全景图像510的流编码为视频流的视频帧。编码器304进一步将被忽略的图像数据520编码为一个或多个附加编码项，并通过时间戳将它们链接到编码后的视频流。例如，图5的全景图像510被编码为在视频流中通过时间戳标记的视频帧。对应的编码后的被忽略的图像数据520可以用同一时间戳来标记。以这种方式，解码器可以将被忽略的图像数据520与正确的全景图像510相关联。

对于如何生成附加编码项，存在不同的可替代方案，即，被忽略的图像数据520可以以不同的方式被编码。根据一个实施例，被忽略的图像数据520在与全景图像510相同的视频帧中被编码。更详细地，被忽略的图像数据520可以被编码为全景图像510的对应位置处的附加编码块和/或片段。通过示例的方式，被忽略的图像数据522a可以被编码为全景图像510的与部分512a对应的位置处的附加编码块和/或片段。

视频帧一般包括由帧数据跟随的帧头，在这种情况下，帧数据为编码后的图像数据。要被编码的图像可以被分割成水平分区，称为片段。另外地或可替代地，要被编码的图像可以被分割成垂直分区，称为块。片段和/或块可以被单独地编码和解码，但仍然可以包括在同一视频帧中。因此，片段可以被视为水平独立地编码后的和可解码的帧单元，并且块可以被视为垂直独立地编码后的和可解码的帧单元。例如，片段通过H.264和H.265标准支持。例如，块(和片段)通过H.265标准支持。为了使解码器将彼此不同的片段和/或块分开，可以使用起始码和停止码来识别帧数据中的片段或块的开始和停止。例如，假设视频帧包括两个块，块1和块2，那么它可以具有形式：

帧头

起始码

块1

停止码

起始码

块2

停止码

为了使解码器能够正确地从编码后的视频帧中合成图像，它还需要知道图像中不同的块或片段的位置，例如根据像素位置。换句话说，除了传输编码后的块或片段外，帧还携带编码后的块或片段的位置信息。这种位置信息例如可以被包括在起始码中。

返回到图5的示例，存在将全景图像510分成块的几种方法。例如，全景图像510可以被编码为单个块。根据另一个示例，源自图像A的部分514a、512a可以被编码为第一块，源自图像B的部分514b、512b可以被编码为第二块，源自图像C的部分514c、512c可以被编码为第三块，并且源自图像D的部分514d可以被编码成第四块。如上面所解释的，这四个块可以通过视频帧中的起始码和停止码来指示。

此外，被忽略的图像数据522a、522b、522c可以被编码在同一帧中。例如，被忽略的图像数据522a可以被编码为第一附加块，被忽略的图像数据522b可以被编码为第二附加块，并且被忽略的图像数据522c可以被编码为的第三附加块，它们被添加在帧数据的末端，即在表示全景图像510的块之后。可替代地，被忽略的图像数据522a、522b、522c可以被编码在单个附加块中，该单个附加块与图5中的项目520的虚线轮廓(其反过来与全景图像510的轮廓对应)对应。

附加块仅意在由定制解码器读取，并且因此应该以允许非定制解码器忽视附加块并且仍然能够解码视频帧以便解码全景图像510的方式被编码。这可以通过几种方式实现。在第一种方式中，附加块可以由如上所述的起始码和停止码来指示。在这种情况下，起始码可以携带附加块的位置信息，例如以指示被忽略的与重叠部分512a的位置对应的图像数据522a，并且针对被忽略的图像数据522b以及522c是类似的。进一步，在帧头中，附加块可以被标记为“非显示”。这允许非定制解码器忽视附加块，因为被标记为“非显示”的块只有在被其他块或帧引用时才被解码，而在这里则不是这样。根据第二种可替代的方式，可以在不使用任何起始码和停止码的情况下将附加块包括在帧中。非定制解码器将以这种方式忽视附加块，因为它正在搜索起始码从而读取数据。然而，定制解码器可以读取帧中的所有数据，即使没有被起始码和停止码指示。在这种情况下，附加块的位置信息需要以不在起始码(例如，在帧头中)中的另一种方式来传送。

上面主要关于块进行了描述，虽然它同样适用于片段。当图像传感器水平设置时，优选地使用块，并且当图像传感器垂直设置时，优选地使用片段。

在重叠部分是非矩形形状的情况下，可以创建包括整个非矩形重叠部分的片段/块，并且根据下面的描述，用跳块来编码没有来自重叠部分的像素信息的片段/块的区域。

根据另一实施例，被忽略的图像数据520被编码在编码视频流中的一个或多个附加视频帧中，即，在与携带对应全景图像510的帧分开的视频帧中。例如，一个或多个附加帧可以包括位于如全景图像510和跳块中对应位置处的被忽略的图像数据520。更详细地，为了对单独的帧进行编码，可以生成“可替代”全景图像。参照图5的示例，可替代全景图像具有与在不重叠部分514a、514b、514c、514d中的全景图像510相同的图像内容。然而，在重叠部分512a、512b、512c中，图像数据由被忽略的图像数据522a、522b、522c取代。与非重叠部分514a、514b、514c对应的可替代全景图像的部分可以参考全景图像510被编码，这将导致这些部分被编码为P-跳块。结果，只是被忽略的图像数据522a、522b、522c需要被编码。

附加视频帧可以被标记为“非显示”帧，或者在不能使用“非显示”帧的视频解码标准中，利用对视频流中的较早或稍后位置进行参考的显示计数值来标记，从而诱使标准解码器不显示这些图像帧。然而，定制解码器将被指示以识别这些视频帧，并使用它们来处理全景图像，而非定制解码器可以忽视附加帧。下面将对此进行更详细地描述。

编码器304将编码后的视频流转发到发射器306，发射器306以比特流的形式将编码后的视频流传输到客户端设备104a、104b、104c中的一个或多个。编码后的视频流被指示为图3中的项目310。

在步骤S10，客户端设备104a、104b、104c使用接收器402接收编码后的视频流310并且使用解码器404对编码后的视频流310进行解码。

如果客户端设备是非定制客户端设备，则解码器通常实现标准的视频解码方案，诸如H.264或H.265。如上所述，当被忽略的图像数据520被编码时，非定制客户端设备的标准解码器可以简单地忽略编码后的视频流中被忽略的图像数据520，并且简单地显示由摄像机102中的全景图像生成器302生成的全景图像510。

相反地，如客户端设备104c的定制客户端设备具有解码器404，解码器404识别视频流中的附加信息，即当生成全景图像500时被摄像机102忽略的图像数据520。例如，如上所述，它可以识别视频流的帧中的附加块和/或片段，或识别被标记为“非显示”帧的附加视频帧。

然后，拼合部件406使用此附加信息从而例如更新全景图像510。通常，拼合部件406可以通过将部分512a、512b、512c中的全景图像510(与原始图像A、B、C、D中的重叠部分502a、502b、502c对应)与生成这些部分512a、512b、512c时被忽略的图像数据522a、522b、522c混合来更新全景图像510。典型地，混合包括计算加权平均值。通过示例的方式，拼合部件406可以通过计算全景图像510的部分512a中的图像数据以及被忽略的图像数据520的部分522b中的图像数据的加权平均值来更新全景图像510的部分512a。因此，来自原始图像A和原始图像B的图像数据将在全景图像510的部分512a中被混合。类似地，图像B和图像C的图像数据在部分512b中被混合，并且图像C和图像D的图像数据在部分512c中被混合。

在计算加权平均值时应用的权重可以按照像素级进行选择。例如，权重可以基于与部分512a、512b、512c的边界的接近程度来选择。举例来说，针对源自图像A的图像数据，权重可以是到与图像A的非重叠部分504a对应的部分514a的最近距离的函数。这进一步在图6中关于全景图像510的部分512a中的混合来阐释。

图6图示全景图像510的部分512a。在这部分中，加权平均值是从来自图像A和图像B的图像数据形成的，即w₁A+w₂B。权重w₁是到部分512a的左边缘(即部分512a与部分514a(对应于图像A的非重叠部分504a)之间的边界)的距离的递减函数。相反，权重w₂是到部分的右边缘(即部分512a与部分514b(对应于图像B的非重叠部分504a)之间的边界)的距离的递减函数。权重总和为1，从而产生加权平均值。在此，权重被图示为到部分512a的边缘的距离的线性函数。然而，在实践中，该函数的具体形式可能会有所不同。然而，优选地，它是一个平滑的函数。

根据另一个实施例，权重不仅可以按照像素级进行选择，权重还可以根据空间频率而不同。例如，全景图像500的部分512a的图像数据可分成低频内容和高频内容，例如，通过使用低通滤波器和高通滤波器在空间上对图像进行滤波。类似地，被忽略的图像数据522a可分成低频内容和高频内容。低频通常意味着低于第一阈值的频率，而高频通常意味着高于或等于第二阈值的频率。第一阈值和第二阈值可以相等。然后，拼合部件406可以关于部分512a和522b的图像数据的低频内容计算第一加权平均值，并且关于部分512a和522b的图像数据的高频内容计算第二加权平均值。

在计算第一加权平均值和第二加权平均值时使用的权重可以不同地选择。例如，在计算第一加权平均值时使用的权重可以根据上面参照图6所描述的权重来选择。在计算第二加权平均值时使用的权重可以选择等于零或一。因此，针对高频，不会发生混合。举例来说，再参照全景图像510的部分512a，针对与部分512a的右边界相比更加接近左边界的像素而言，应用于图像A的高频内容的权重w₁可以被设定为1，并且应用于图像B的高频内容的权重w₂可以被设定为零。相反，针对与部分512a的左边界相比更加接近右边界的像素而言，应用于图像A的高频内容的权重w₁可以被设定为零，并且应用于图像B的高频内容的权重w₂可以被设定为1。

权重也可以设定成取决于全景图像510的部分512a、512b、512c中的图像数据以及取决于被忽略的图像数据522a、522b、522c。例如，如果存在覆盖原始图像A、B、C、D中的重叠部分502a、502b、502c中的一个重叠部分的对象或对象的一部分，则至少针对由对象覆盖的像素，只使用来自重叠部分中的重叠图像中的一个重叠图像的图像数据将是有益的。由于视差，另外在合成全景图中存在对象可能会重复显示的风险。因此，拼合部件406可以识别全景图像500的部分512a、512b、512c中的对象或对象的部分。类似地，拼合部件406可以识别对应的被忽略的图像数据522a、522b、522c中的对象或对象的部分。对象识别可以例如包括图像数据中的边、角或对比点的识别，如现有技术已知的。如果拼合部件406识别部分512a、512b、512c和被忽略的图像数据522a、522b、522c的对应片中的对象或对象的一部分，则当如上所述形成加权平均值时使用的权重，针对全景图像510和属于该对象的像素的被忽略的图像数据520中的一个可以设定为0。

当拼合部件406已经更新全景图像510时，更新后的全景图像可以显示在客户端设备的显示器上。

虽然上面的描述主要涉及更新全景图像从而改善全景图像的平滑性，但应该理解的是，定制客户端设备也可以使用附加接收的数据，即在生成全景图像时在摄像机侧上被忽略的图像数据。例如，客户端设备可以从全景图像510和被忽略的图像数据520中恢复多个图像。根据另一个示例，客户端设备可以使用接收的全景图像510和被忽略的图像数据520，从而计算与原始图像的重叠部分502a、502b、502c对应的部分512a、512b、512c中的深度信息。深度信息可以根据图像A、B、C、D的重叠中的视差来计算。

即使在使用多个具有部分重叠的视野的图像传感器同时捕捉多个图像的摄像机的上下文中已经描述了上述方法，但是该方法也适用于其他情况。例如，可以移动具有单个图像传感器的摄像机，例如通过执行平移和倾斜运动来扫描场景。因此，由这样的摄像机捕捉的视频序列包括多个图像，这些图像从稍微不同的位置和/或方向描绘场景。因此，多个图像与场景的部分重叠的视野对应。然而，在这种情况下，图像不是同时捕捉的，而是与在不同时间点捕捉的视频序列的视频帧对应。上述方法经适当修改可应用于以这种方式被捕捉的多个图像。具体地，该方法可以包括：

摄像机捕捉包括具有部分重叠的视野的多个图像的视频序列，

摄像机通过将多个图像的部分拼接在一起而生成与多个图像的视野的结合对应的全景图像，

客户端设备接收和解码编码后的视频流，并且在客户端设备被定制成用于处理在生成全景图像时被摄像机忽略的图像数据的情况下，客户端设备使用在生成全景图像时被摄像机忽略的图像数据来更新与多个图像的重叠部分对应的部分中的全景图像。

应该理解，本领域技术人员可以以多种方式修改上述实施例，并且仍然使用如上面实施例中所示的本发明的优点。例如，当两个以上的图像在重叠部分中重叠时，所公开的方法同样适用。因此，本发明不应受限于所示的实施例，而只能由所附权利要求来限定。此外，正如技术人员所理解的，可以组合所示的实施例。

Claims

1.一种在包括摄像机(102)和客户端设备(104、104b、104c)的系统(100)中执行的方法，所述方法包括：

所述摄像机(102)通过使用具有部分重叠的视野的多个图像传感器(103)来同时捕捉(S02)多个图像(A、B、C、D)，

所述摄像机(102)将所述多个图像(A、B、C、D)的重叠部分(502a、502b、502c)识别(S04)为所述多个图像中的至少两个图像重叠的部分，

所述摄像机(102)通过将所述多个图像的部分(514a、512a、514b、512b、514c、512c、514d)拼接在一起而生成与所述多个图像传感器的视野的结合对应的全景图像(510)，

其中，针对所述多个图像的每一个重叠部分(502a、502b、502c)，所述摄像机包括来自所述全景图像中重叠的所述至少两个图像中的一个图像(A、B、C)的图像数据(512a、512b、512c)，并且所述摄像机忽略来自重叠的所述至少两个图像之中的其他图像(B、C、D)的图像数据(522a、522b、522c)，

所述摄像机对所述全景图像(510)和在生成所述全景图像时被忽略的所述图像数据(522a、522b、522c)进行编码(S08)，并且以编码后的视频流(310)将所述全景图像(510)和在生成所述全景图像时被忽略的所述图像数据(522a、522b、522c)传输到所述客户端设备(104a、104b、104c)，

所述客户端设备(104a、104b、104c)接收和解码(S10)所述编码后的视频流(104)，并且在所述客户端设备被定制成用于处理在生成所述全景图像(510)时被所述摄像机(102)忽略的所述图像数据(522a、522b、522c)的情况下，所述客户端设备(104c)使用在生成所述全景图像(510)时被所述摄像机(102)忽略的所述图像数据(522a、522b、522c)来更新与所述多个图像的所述重叠部分(502a、502b、502c)对应的部分(512a、512b、512c)中的所述全景图像(510)。

2.根据权利要求1所述的方法，其中针对所述全景图像(510)的与所述多个图像的重叠部分(502a、502b、502c)对应的每一个部分(512a、512b、512c)，所述客户端设备(104c)通过计算所述全景图像(510)和针对该重叠部分被所述摄像机忽略的所述图像数据(522a、522b、522c)的加权平均值而更新所述全景图像(510)。

3.根据权利要求2所述的方法，其中所述加权平均值的权重(w₁、w₂)基于像素到所述全景图像的与所述多个图像的重叠部分(502a、502b、502c)对应的所述部分(512a、512b、512c)的边缘的接近程度而按照像素级进行选择。

4.根据权利要求3所述的方法，其中所述加权平均值的所述权重(w₁、w₂)是所述像素到所述全景图像的与所述多个图像的重叠部分(502a、502b、502c)对应的所述部分(512a、512b、512c)的所述边缘的所述接近程度的平滑函数。

5.根据权利要求2-4中任一项所述的方法，进一步包括：

针对所述全景图像的与所述多个图像的重叠部分(502a、502b、502c)对应的每一个部分(512a、512b、512c)：

所述客户端设备(104c)计算所述全景图像(510)和针对该重叠部分被所述摄像机忽略的所述图像数据(522a、522b、522c)的第一加权平均值，其中所述第一加权平均值关于低于第一阈值的空间频率计算，

所述客户端设备(104c)计算所述全景图像(510)和针对该重叠部分被所述摄像机(102)忽略的所述图像数据(522a、522b、522c)的第二加权平均值，其中所述第二加权平均值关于等于或者高于第二阈值的空间频率计算，所述第二阈值大于或者等于所述第一阈值，

其中，所述全景图像(510)通过合并所述第一加权平均值和所述第二加权平均值而在与所述多个图像的重叠部分(502a、502b、502c)对应的每一个部分(512a、512b、512c)中被更新；并且

其中，用于计算所述第一加权平均值和所述第二加权平均值的权重被不同地选择。

6.根据权利要求5所述的方法，其中所述第一加权平均值的所述权重是到所述全景图像的与所述多个图像的所述重叠部分(502a、502b、502c)对应的所述部分(512a、512b、512c)的所述边缘的所述接近程度的平滑函数，并且

其中所述第二加权平均值的所述权重取决于所述全景图像的与所述多个图像的所述重叠部分(502a、502b、502c)对应的所述部分(512a、512b、512c)的所述边缘的所述接近程度而为零或者为一。

7.根据权利要求2所述的方法，进一步包括：

所述客户端设备(104c)识别所述全景图像的与所述多个图像的重叠部分(502a、502b、502c)对应的所述部分中并且在生成所述全景图像的该部分时被所述摄像机忽略的所述图像数据(522a、522b、522c)中的对象(512a、512b、512c)，

其中，如果在所述全景图像的与所述多个图像的重叠部分对应的所述部分(512a、512b、512c)中并且在生成所述全景图像的该部分时被所述摄像机忽略的所述图像数据(522a、522b、522c)中识别到对象，则针对被识别为属于该对象的像素，所述全景图像和在生成该部分时被所述摄像机忽略的所述图像数据中的一个的权重被设定为零。

8.根据权利要求1所述的方法，进一步包括：

所述客户端设备(104c)从所述全景图像(510)和在生成所述全景图像时被忽略的所述图像数据(522a、522b、522c)中恢复所述多个图像(A、B、C、D)。

9.根据权利要求1所述的方法，进一步包括：

所述客户端设备(104c)基于所述全景图像(510)和在生成所述全景图像时被所述摄像机忽略的所述图像数据(522a、522b、522c)，针对所述全景图像的与所述多个图像的所述重叠部分对应的部分(512a、512b、512c)计算深度信息。

10.根据权利要求1所述的方法，进一步包括：

在所述客户端设备未被定制成用于处理在生成所述全景图像时被所述摄像机忽略的图像数据(522a、522b、522c)的情况下，所述客户端设备(104a)显示所述全景图像。

11.根据权利要求1所述的方法，其中所述全景图像(510)被编码为通过所述编码后的视频流(310)中的时间戳标记的视频帧，并且其中所述摄像机通过同一时间戳标记在生成所述全景图像时被忽略的所述编码后的图像数据(522a、522b、522c)。

12.根据权利要求11所述的方法，其中在生成所述全景图像(510)时被忽略的所述图像数据(522a、522b、522c)在与所述全景图像(510)相同的视频帧中被编码为附加编码块和/或片段。

13.根据权利要求11所述的方法，其中在生成所述全景图像(510)时被忽略的所述图像数据(522a、522b、522c)被编码为一个或多个独立的视频帧。

14.根据权利要求13所述的方法，其中所述一个或多个独立的视频帧被标记为非显示帧。

15.一种系统(100)，包括：

摄像机(102)，所述摄像机(102)包括具有部分重叠的视野的多个图像传感器(103)，所述多个图像传感器(103)被配置成同时捕捉多个图像(A、B、C、D)，

其中，所述摄像机(102)进一步配置成：

将所述多个图像(A、B、C、D)的重叠部分(502a、502b、502c)识别为所述多个图像中的至少两个图像重叠的部分，

通过将所述多个图像(A、B、C、D)的部分(514a、512a、514b、512b、514c、512c、514d)拼接在一起而生成与所述多个图像传感器(503)的视野的结合对应的全景图像(510)，其中针对所述多个图像的每一个重叠部分(502a、502b、502c)，所述摄像机(102)被配置成包括来自所述全景图像中重叠的所述至少两个图像中的一个图像(A、B、C)的图像数据(512a、512b、512c)，并且被配置成忽略来自重叠的所述至少两个图像之中的其他图像(B、C、D)的图像数据(522a、522b、522c)，以及

对所述全景图像(510)和在生成所述全景图像时被忽略的所述图像数据(522a、522b、522c)进行编码，并且以视频流(310)将所述全景图像(510)和在生成所述全景图像时被忽略的所述图像数据(522a、522b、522c)传输到客户端设备(104c)，

所述系统进一步包括：

客户端设备(104c)，所述客户端设备(104c)被配置成接收和解码所述视频流(310)，并且使用在生成所述全景图像(510)时被所述摄像机(102)忽略的所述图像数据(522a、522b、522c)来更新与所述多个图像的所述重叠部分(502a、502b、502c)对应的部分(512a、512b、512c)中的所述全景图像(510)。