CN107211081A

CN107211081A - 基于独立编码的背景更新的视频传输

Info

Publication number: CN107211081A
Application number: CN201680006522.XA
Authority: CN
Inventors: J·T·科内柳森; A·埃克内斯; H·P·阿尔斯塔德; S·O·埃瑞克森; E·肖
Original assignee: Hadley Co
Current assignee: Hadley Co
Priority date: 2015-01-22
Filing date: 2016-01-22
Publication date: 2017-09-26
Anticipated expiration: 2036-01-22
Also published as: US10511766B2; EP3235237A1; US9871967B2; US20160219280A1; EP3235237A4; US20170374283A1; CN107211081B

Abstract

提供了系统和方法，用于减轻视频传输的带宽限制，在接收器处提高视频的质量，并改进VR/AR体验。特别地，提供了一种改进的视频传输和呈现系统，用于生成高分辨率的视频。所述系统其中具有发送器和VR/AR接收器；所述发送器包括外部编码器和核心编码器，而所述接收器包括核心解码器和外部解码器。所述外部编码器适于从源接收视频并分别地输出显著视频和编码的三维背景，并且所述外部解码器适于将背景与显著视频合并，从而产生增强的视频。还提供了一种在没有云台变焦(PTZ)硬件的情况下模拟PTZ操作的系统。进一步提供了用于视频传输的方法，通过所述方法，生成三维背景模型，背景被独立地编码、增量地更新，并且背景和更新被与视频独立地发送。

Description

基于独立编码的背景更新的视频传输

技术领域

本申请总体上涉及视频传输(video transmission)。具体地，本申请涉及用于减轻视频传输的带宽限制并在接收器处提高视频的质量的装置和方法。更具体地，提供了改进的视频传输系统和方法，用于基于独立编码的背景和背景更新在接收器处生成高分辨率视频。

背景技术

实时视频通信系统和新兴的网真(telepresence)领域正在面临着内在的挑战，因为它们试图向远程用户模拟存在于另一物理空间中的体验。这是因为与具有当前技术水平的分辨率的市售单镜头摄像机相比，人眼利用将其高分辨率中心凹(fovea)固定在关注对象上的能力，在其视场(field of view)上保持了极高的优势。参见http:// www.clarkvision.com/imagedetail/eye-resolution.html(在120度的范围，将人眼的分辨率估计为576兆象素)。此外，网真系统还在实践中受到对于大多数用户可用的网络带宽的限制。因此，除了使用在大多数平板电脑、手机、和笔记本电脑中装备的窄视场摄像机进行的单一的人与人视频聊天之外，网真仅具有有限的吸引力(uptake)，这也就不足为奇了。

商业网真系统中的自动和手动云台变焦(PTZ，pan-tilt-zoom)摄像机试图通过光学和机械地将视场固定在场景中所选的关注部分上来克服单镜头摄像机分辨率的限制。这样做部分地减轻了分辨率的限制，但仍有一些缺点。例如，在一给定时间只能进行一次机械固定；因此，可能无法令人满意地服务具有不同关注点的多个远程用户。此外，变焦镜头和机械云台机构提高了摄像机系统的成本，并对整个系统的可靠性提出了新的挑战。也就是说，与通常在其使用寿命期间维持更少的移动圈数(move cycle)的手动系统相比，自动PTZ系统对机械结构(mechanics)产生了更高的要求。与固定摄像机相比，对于高质量视频编码的带宽需求也显著增加。类似地，现有系统中的一些数字PTZ也存在如上所述的许多缺点，包括例如不能由远端的多个用户控制和对于视频编码的比特率要求较高。

全景和超广角视频摄像机可以满足网真系统的分辨率要求，以提供理想的用户体验。这些摄像机在传感器分辨率和像素速率方面的增长潜力远远超出现有的标准。这可以例如通过弯曲传感器表面和单中心镜头设计来实现。参见http:// www.jacobsschool.ucsd.edu/news/news_releases/release.sfe？id＝1418(讨论了分辨率可至少为85兆象素的120度FOV成像器)；http://image-sensors- world.blogspot.co.il/2014/04/vlsi-symposia-sony-presents-curved.html(传感器制造商公布了弯曲图像传感器的原型)。然而，这样的设计将对当前网络的容量和视频编码效率造成巨大压力，从而使得它们对于广泛的现实部署来说是不切实际的。例如，每秒30帧的85兆象素的摄像机将需要低至0.0002比特/像素的压缩，以适应10兆比特/秒(Mbit/s)的链路。考虑到例如在良好的条件下以0.05比特/像素运行的H.264等当前的视频压缩标准，这在现今通常是无法达到的。

因此，需要改进的方法和系统来减轻视频传输的带宽限制并且基于传统的摄像机硬件生成高分辨率的视频。还需要利用这些改进来使得现代实时通信系统和理想网真体验成为可能。

发明内容

因此，本申请的目的是提供方法和系统，用于减轻视频传输上的带宽限制，从而使用传统的硬件设备来生成广角、高分辨率的视频。

特别地，根据本申请，在一个实施例中，提供了一种用于传输视频的方法，所述方法包括：1)通过从所述视频确定所述场景的静态背景来初始化背景模型；以及2)通过与所述视频独立地对所述背景模型进行编码来将所述场景的背景作为所述背景模型进行发送。所述背景模型被增量地更新，并且所述更新被进一步与所述视频独立地编码和发送。

在另一实施例中，所述方法还包括通过将所述背景与所述视频合并来在接收器处产生增强的视频。在又一实施例中，以比所述视频的比特率更低的比特率对所述背景模型进行更新和发送。在进一步的实施例中，所述方法还包括针对每个帧发送所述背景和所述视频之间的几何映射。

在另一实施例中，所述方法还包括通过场景分析来确定所述视频的视场。在又一实施例中，所述背景模型用于抑制所述视频的所述背景中的噪声变化。

根据一实施例，本申请的方法还包括通过标准视频编解码器(codec)来压缩所述视频。在另一实施例中，所述视频编解码器是H.264、H.265、VP8、和VP9之一。在又一实施例中，所述背景在由H.264、H.265、VP8、和VP9之一定义的辅助数据信道中发送。

根据另一实施例，所述背景模型是参数模型。在进一步的实施例中，所述参数模型是高斯混合(MOG)。

根据又一实施例，所述背景模型是非参数模型。在进一步的实施例中，所述非参数模型是视觉背景提取器(ViB)。

根据本申请的另一实施例，提供了一种用于在场景的视频上模拟云台变焦操作的方法，所述方法包括：1)通过从所述视频确定所述场景的静态背景来初始化背景模型；2)通过与所述视频独立地对所述背景模型进行编码来将所述场景的背景作为所述背景模型进行发送，其中，所述背景模型被增量地更新，其中，所述更新被进一步与所述视频独立地编码和发送，并且其中，针对每个帧发送所述背景和所述视频之间的几何映射；以及3)通过场景分析来选择所述视频的一个或多个视场；以及通过将所述背景与所述视频合并来在接收器处产生增强的视频。

在另一实施例中，该方法还包括在所述接收器处控制所述模拟的云台变焦操作。在又一实施例中，所述方法还包括在所述视频的发送器处控制所述模拟的云台变焦操作。

根据本申请的又一实施例，提供了一种用于传输场景的视频的系统，所述系统包括：1)发送器，所述发送器包括外部编码器和核心编码器，其中，所述外部编码器适于接收所述视频并分别地将显著视频以及背景和几何比特流输出到所述核心编码器中，其中，所述核心编码器适于输出编码比特流；以及2)接收器，所述接收器包括核心解码器，其中，所述核心解码器适于接收所述编码比特流并且输出所述显著视频。

根据本申请的进一步的实施例，提供了一种用于传输场景的视频的系统，所述系统包括：1)发送器，所述发送器包括外部编码器和核心编码器，其中，所述外部编码器适于接收所述视频并分别地将显著视频以及背景和几何比特流输出到所述核心编码器中，其中，所述核心编码器适于输出编码比特流；以及2)接收器，所述接收器包括核心解码器和外部解码器，其中，所述核心解码器适于接收所述编码比特流并且分别地将所述显著视频以及所述背景和几何比特流输出到所述外部解码器中，其中，所述外部解码器适于合并所述显著视频以及所述背景和几何比特流，从而输出所述场景的增强的视频。

在另一实施例中，所述外部编码器还包括背景估计单元，所述背景估计单元适于通过从所述视频确定所述场景的静态背景来初始化背景模型，并且以比所述视频的比特率更低的比特率增量地更新所述背景模型。在又一实施例中，所述外部编码器还包括连接到所述背景估计单元的背景编码器。所述背景编码器适于与所述视频独立地对所述背景模型和所述更新进行编码。在进一步的实施例中，所述背景编码器包括熵编码器、熵解码器、更新预测单元、和更新存储单元。

根据另一实施例，所述背景编码器在下游方向连接到比特流复用器。在又一实施例中，所述外部编码器还包括显著性成帧(saliency framing)单元，所述显著性成帧单元适于将几何比特流输出到所述比特流复用器中。所述比特流复用器适于合并所述几何比特流和所述背景比特流，从而输出背景和几何比特流。

在进一步的实施例中，所述外部编码器还包括能够对所述视频进行缩放(scale)和裁剪(crop)的缩减(downscale)单元。所述缩减单元在下游方向连接到噪声抑制单元。所述噪声抑制单元适于基于所述背景模型来抑制所述显著视频中的噪声。

根据另一实施例，所述外部解码器还包括：i)比特流解复用器，适于从所述核心编码器接收所述背景和几何比特流并分别地输出所述几何比特流和所述背景比特流；ii)背景解码器，连接到所述比特流解复用器并适于接收所述背景比特流；以及iii)背景合并单元，在下游方向连接到所述比特流解复用器和所述背景解码器。所述背景合并单元适于从所述核心解码器接收所述显著视频，并且将所述几何比特流和所述背景比特流与所述显著视频合并，从而产生所述场景的增强的视频。

在又一实施例中，所述背景解码器包括熵解码器、更新预测单元、和更新存储单元。

在进一步的实施例中，所述外部解码器还包括能够接收控制输入从而产生增强的视频的虚拟云台变焦单元。

根据另一实施例，本申请的所述系统中的所述核心编码器是H.264/H.265视频编码器，并且所述背景和几何比特流通过所述H.264/H.265视频编码器的网络抽象层承载。在又一实施例中，本申请的所述系统中的所述核心解码器是H.264/H.265视频解码器，并且所述背景和几何比特流通过所述H.264/H.265视频解码器的网络抽象层承载。

在进一步的实施例中，所述核心编码器处于多媒体容器格式，并且所述背景和几何比特流通过所述核心编码器的辅助数据信道承载。在另一实施例中，所述核心解码器处于多媒体容器格式，并且所述背景和几何比特流通过所述核心解码器的辅助数据信道承载。

根据又一实施例，本申请的所述系统中的所述核心编码器是标准视频编码器，并且所述背景和几何比特流通过所述核心编码器的辅助数据信道承载。在进一步的实施例中，所述核心解码器是标准视频解码器，并且所述背景和几何比特流通过所述核心解码器的辅助数据信道承载。

根据本申请的另一实施例，提供了一种用于传输和呈现来自多个视场的场景的视频的方法，所述方法包括：(1)通过从所述视频确定所述场景的静态背景来初始化三维背景模型；(2)通过与所述视频独立地对所述背景模型进行编码来将所述场景的背景作为所述背景模型进行发送，其中，所述背景模型被增量地更新，并且其中，所述更新被进一步与所述视频独立地编码和发送；以及(3)通过将所述背景与所述视频合并来在接收器处呈现增强的视频。

在又一实施例中，所述接收器是VR/AR设备。在进一步的实施例中，所述方法还包括：对来自所述VR/AR接收器的视线方向的关注区域进行自学习；以及发送所述关注区域的高分辨率视频，其中，通过将所述关注区域的所述高分辨率视频与所述背景合并来创建所述增强的视频。

根据本申请的另一实施例，提供了一种用于传输和呈现来自多个视场的场景的视频的系统，所述系统包括：(1)发送器，所述发送器包括外部编码器和核心编码器，其中，所述外部编码器适于接收所述视频并分别地将显著视频以及三维背景和几何比特流输出到所述核心编码器中，其中，所述核心编码器适于输出编码比特流；以及(2)VR/AR接收器，所述VR/AR接收器包括核心解码器和外部解码器，其中，所述核心解码器适于接收所述编码比特流并且分别地将所述显著视频以及所述背景和几何比特流输出到所述外部解码器中，其中，所述外部解码器适于合并所述显著视频以及所述背景和几何比特流，从而呈现所述场景的增强的视频。在另一实施例中，所述三维背景模型被增量地更新。

在又一实施例中，所述外部编码器包括背景估计单元，所述背景估计单元适于通过从所述视频确定所述场景的静态背景来初始化三维背景模型，并且以比所述视频的比特率更低的比特率增量地更新所述背景模型。

在进一步的实施例中，所述系统还包括用于捕获所述场景的视频源。在另一实施例中，所述视频源包括具有部分重叠的视场的一个或多个摄像机。在又一实施例中，所述摄像机是移动摄像机。在进一步的实施例中，所述系统适于估计所述场景的移动部分和静止部分。在另一实施例中，所述外部编码器包括背景估计单元，所述背景估计单元适于基于所述场景的所述静止部分生成三维背景模型，并且以比所述视频的比特率更低的比特率增量地更新所述背景模型。

在进一步的实施例中，所述移动摄像机是PTZ摄像机。在另一实施例中，所述VR/AR接收器适于对来自其视线方向的关注区域进行自学习，并且其中，所述一个或多个PTZ摄像机适于捕获所述关注区域的高分辨率视频。

附图说明

图1示出根据本申请一个实施例的视频传输系统。

图2示出根据另一实施例的视频传输系统的外部编码器。

图3示出根据另一实施例的视频传输系统的外部解码器。

图4示出根据另一实施例的视频传输系统的H.264/H.265核心编码器。

图5示出根据另一实施例的视频传输系统的H.264/H.265核心解码器。

图6示出根据另一实施例的视频传输系统的多媒体容器格式(multimediacontainer format)核心编码器。

图7示出根据另一实施例的视频传输系统的多媒体容器格式核心解码器。

图8示出根据另一实施例的作为视频传输系统的核心编码器的、具有辅助数据信道的标准视频编码器。

图9示出根据另一实施例的作为视频传输系统的核心解码器的、具有辅助数据信道的标准视频解码器。

图10示出根据另一实施例的视频传输系统中的背景编码器。

图11示出根据另一实施例的视频传输系统中的背景解码器。

具体实施方式

根据本申请各种实施例的方法和系统采用背景模型，基于该背景模型，视频中场景的背景被编码和增量地更新。编码后的背景和更新独立于该视频被发送。然后，在接收器处，背景可以与视频合并，从而产生增强的高分辨率视频。

方法概述

在一个实施例中，例如，包括前景和背景两者的场景的视频被发送。诸如H.264等标准视频编解码器对它进行压缩。场景的静态背景被作为背景模型发送，该背景模型以比视频更低的比特率被增量地更新。基于已建立的监控系统技术，从视频的静态背景来生成和初始化背景模型。

在替代实施例中，具有部分重叠视场的多个摄像机(camera)被部署为视频源，其生成用于发送和呈现的一个或多个同步和协调(coordinate)的视频流。在某些实施例中，这种视频源包括移动摄像机。根据所述视频流来估计场景的移动和静止部分，并由此，基于图像的静止部分来生成三维背景模型。

在另一实施例中，通过场景分析——例如，将所发送视频的视场限于人类对象——来自动限制该视场，以更好地利用视频格式的分辨率。根据本实施例，针对每个帧，发送视频和背景之间的确切空间关系。

在又一实施例中，背景模型用于抑制视频的背景中的杂散噪声(spuriousnoise)。背景模型数据和其他相关信息在由诸如H.264之类的视频标准定义的辅助数据信道中发送。该背景和相关数据可以被以下解码器忽略和旁路(bypass)，该解码器设置为不对通过辅助数据信道承载的数据进行解释。因此，根据该实施例的系统提供了与旧的和现有的既存系统集成的灵活性。

在某些实施例中，在接收器处，来自背景模型的输出与视频合并，从而产生增强的视频。在特定实施例中，在接收器处，在增强的视频上模拟PTZ操作。根据一实施例，在发送器或接收器处对该模拟的PTZ操作进行控制。根据替代实施例，该控制由用户实现或通过发送器或接收器处的自动处理实现。

背景处理

一些现有的视频编码器应用前景背景分割，其中在编码之前从视频中减去背景，并且单独地发送背景。根据本申请的一个实施例，使用诸如H.264或H.265之类的标准视频编码器对前景和背景两者的视频都进行编码。在本实施例中，通过将输入的视频像素与背景模型的预测像素状态进行比较来抑制背景中的杂散噪声。因此，在本实施例中，向视频编码器提供了背景区域中近乎静止的图像。背景模型在标准编解码器的辅助信道中被发送和增量地更新。因此，根据本实施例的背景发送方法放宽了对于视频传输的带宽要求，并且使得能够通过将背景更新与视频合并来在接收器处呈现高分辨率的视频。

根据一个实施例，视频由并不知道背景模型数据的标准解码器进行解码。标准解码器忽略未知的辅助字段，并旁路背景模型数据。该实施例的系统利用现有的核心视频编解码器，其提供较低的实现成本。因此，该实施例的系统提供了与旧的和现有系统的向后兼容性。

在另一实施例中，本申请的系统和方法以相对于前景的增强的表示级别来发送背景。在特定实施例中，以较高的分辨率和较高的动态范围来发送背景数据。出于许多原因，这是有利的。例如，虽然可以修改传统的混合视频编解码器来发送高分辨率帧内帧(intraframe)并且以低分辨率发送预测帧，但是帧内帧可能需要许多位来进行编码，因此不可能以低延迟实现来传递(transfer)，而不中断视频流。利用根据本实施例的外层中的背景发送，核心视频传输正常进行，而不中断，这是因为背景发送正在完成。

与高分辨率的帧内帧相比，根据本实施例，利用外层中的背景发送，核心编码器可变得更简单。这提供了成本节省和广泛的系统兼容性。

模拟的云台变焦

根据另一实施例，如上所述，本申请的系统模拟PTZ操作。在本实施例中，视域(view)由接收侧的模拟PTZ处理确定，而不是在发送侧固定。因此，所有的接收用户都可以访问另一侧的不同视域。由于该模拟PTZ不受机械结构的限制，因此，在其他实施例中，它可以对许多额外的转换和变换(transition and transformation)开放。特别地，在一个实施例中，提供了视域之间的瞬时切换和视域的滚动。

与现有的PTZ网真解决方案相比，根据本申请的这些非机械的、模拟的PTZ系统也提供了成本节省，并进一步增强了网真的可靠性。

装置和部件

参考图1，在一实施例中，本申请的系统包括视频源、发送器和接收器。在特定实施例中，视频源、发送器和接收器中的每个都是全景的。

根据一个实施例的全景视频源是提供广角或全景数字视频流的设备。在这个实施例中，它提供了适用于进一步处理的高比特率的未压缩视频。一实施例中的视频源是单个镜头和图像传感器组件；在另一实施例中，它包括多个镜头和传感器以及可以模拟单个镜头和传感器的操作的合适的图像拼接软件或硬件。在又一实施例中，视频源包括图形呈现设备，其将三维(3D)场景的几何投影模拟到一表面。因此，本实施例的系统可以被有利地部署用于计算机视频游戏。

在一个实施例中，全景视频源的几何投影可能与期望的呈现投影不同。因此，可以在视频源设备的设计、制造或设置期间以适合于嵌入到视频发送器中的形式对它进行校准，或将它作为辅信息(side information)转发到视频发送器。发送器又将该信息提供给接收器，然后接收器可以被用于使用另一投影来呈现视频。因此，该实施例的系统提供了在基于期望的控制在接收器处呈现视频时的相当大的灵活性，该期望的控制可以是通过设计内置的或从用户输入的。在替代实施例中，可以从发送器或接收器实现这种控制。

根据一实施例的系统的发送器包括外部编码器。参考图2，在一实施例中，外部编码器接收全景数字视频流，并输出显著(salient)视频流、编码背景模型更新序列、和几何投影数据。根据一实施例，来自外部编码器的该数据然后被传送到系统的核心编码器。视频流在某一实施例中为未压缩的形式，并且适合于标准视频编码器的压缩。根据另一实施例的编码背景模型数据和几何投影数据被复用并成帧为适合于在标准视频编码器的辅助数据帧中发送的格式。本实施例中的系统的核心编码器输出编码后的比特流。

如图4所示，一个实施例中的核心编码器是H.264/H.265编码器。H.264/H.265核心编码器使用该标准的网络抽象层，在标记为用户数据的SEI报头中发送辅助数据。在某个实施例中，该数据被未设置为接收这样的SEI报头的接收器忽略。如上所述，该系统提供了向后兼容性，并有助于将其集成到现有的网真系统中。

根据一个实施例，在本申请的系统中采用的背景模型是参数模型。在这样的参数背景模型中，基于来自过去视频帧的样本，对每个像素确定多个统计量(statistics)。根据另一实施例，背景模型是非参数模型。在这样的非参数背景模型中，对每个像素存储或聚合(aggregate)来自过去视频帧的多个样本——在有限维的空间中没有确定统计量或参数。根据一实施例，非参数背景模型是视觉背景提取器(ViBe)。在另一实施例中，参数背景模型是高斯混合(MOG)。在本申请的某些实施例中，系统的背景模型是三维模型并且支持VR/AR应用。为了本申请的各种实施例的目的，术语“三维”涵盖以下场景，在该场景中模型为来自单视点的图像，所述单视点的图像具有用于图像中每个点的深度，其有时被称为“2.5维”。

根据一个实施例，通过控制场景或通过使用更简单的背景模型进行自举(bootstrap)，系统的背景模型根据已知为背景的视频帧中的像素进行初始化。在替代实施例中，系统假定在背景模型的初始化时所有的像素都是背景的一部分。

在初始化之后，在一个实施例中，基于根据模型被确定为是或可能是背景的新样本中的背景上的改变来更新背景模型。

根据一个实施例，通过根据先前重建的更新来预测每个更新并仅发送预测的更新和实际的更新之间的差异，即残差(residual)，来对更新进行编码。在另一实施例中，通过量化和熵编码进一步减少残差的比特率。

参考图10和11，根据本申请的某些实施例，通过背景编码器和背景解码器两者中的相同处理来重建更新。首先通过对熵编码和量化进行逆转来解码残差，然后根据先前更新来预测每个更新或每组更新，并且通过添加残差和预测更新来重建实际更新。

根据一个实施例，系统的发送器包括如图1所示的外部编码器和核心编码器。在该实施例中，发送器及其部件实现在相同的物理设备中。例如，一个实施例中的发送器是移动片上系统(SoC)。在某些实施例中，外部编码器实现在用于GPU或CPU内核的软件中，并且使用在这样的SoC中装备的用于视频编码的硬件加速器来实现核心编码器。该SoC发送器的实现有利于以下的网真系统，在该网真系统中移动电话或平板设备提供发送器功能(utility)。

在另一实施例中，发送器实现在为摄像机定制的SoC中。除了用于视频编码的加速器之外，还有其他功能被实现为在DSP内核上运行的软件。该特定实施例的发送器有利于采用单机(stand-alone)摄像机的网真系统。

如上所述，本申请的视频接收器包括核心解码器。参考图5、7、和9，在某些实施例中，核心解码器接收编码比特流并且，除了辅助数据之外，输出未压缩视频。根据这些实施例，辅助数据包括背景模型数据和几何映射数据。如图3所示，该数据被传送到外部解码器，其根据一个实施例合并显著视频和背景模型输出，从而产生增强的全景视频流。在又一实施例中，外部解码器改变视频的几何映射，从而模拟光学PTZ摄像机的效果。

在发送器和接收器之间的辅助数据信道遇到分组丢失或其他可靠性问题的情况下，本申请另一实施例中的系统提供了向发送器发送请求以重发丢失的分组的功能。这些可包括其他发送的元数据和背景模型数据的部分。

根据一实施例，系统的视频接收器实现在云服务中，该云服务在通用数据中心或媒体处理器上运行。在另一实施例中，接收器被实现在诸如智能电话、平板电脑或个人计算机之类的终端用户设备的网络浏览器中。在网络浏览器中，接收器功能在特定实施例中由浏览器扩展、或使用诸如WebRTC(用于核心解码器)和WebGL(用于外部解码器)之类的标准化网络部件来实现。在又一实施例中，接收器被实现为诸如智能电话、平板电脑或个人计算机之类的终端用户设备的操作系统中的原生应用(native application)。在又一实施例中，接收器被实现在专用于视频通信的电器中。

在另一实施例中，接收器连同沉浸式(immersive)眼镜显示器、头戴式跟踪、或将选择图像投影到用户的视网膜中的替代技术一起，被实现为虚拟现实(VR)或增强现实(AR)系统的一部分。根据本实施例，本发明的装置和方法可以减轻启用VR/AR的视频会议系统的带宽限制，其中远程实时图像(distant live image)被投影到近端视域上。

在又一实施例中，关于VR/AR接收器的眼睛注视和视线方向(view direction)的信息被中继传回到本发明的摄像机系统。来自该特定视线方向的高分辨率视频被相应地发送，允许了围绕该特定视线方向的某些额外边缘区域(margin)。在又一实施例中，本发明的系统适应自学习以绘出关注区域。具体地说，VR/AR接收器随着时间分析眼睛注视方向，并且接收到最多视线或“命中(hit)”的区域被以更高的分辨率进行编码以进行发送和呈现。

根据一个实施例，本申请的系统包括视频源。在某些实施例中，视频源包括一个或多个移动的PTZ摄像机。这些移动PTZ摄像机针对特定的关注区域(“ROI”)捕获高分辨率视频，并且根据一实施例，将所述高分辨率视频与背景合并。在本实施例中，背景是静止图像，并且以比ROI视频的分辨率更高的分辨率被呈现，从而增强VR/AR体验。

根据一个实施例，移动摄像机在时间上同步并且在位置上协调，从而允许在从多个摄像机收集的ROI视频之间进行高效的混合。

在使用空间上移动的摄像机系统作为视频源的另一实施例中，使用具有部分重叠的视场(FOV)的多个固定的高分辨率摄像机预先生成背景的三维模型。在一个实施例中，这些摄像机还包括背景和前景分割滤波器，从而将场景的移动部分与非移动部分区分开。只有场景的背景(静止)部分用于生成场景的3D模型。在替代实施例中，在生成3D模型之前，使用超分辨率成像技术，以增加3D模型的分辨率。

在又一实施例中，用于空间和角度定位的陀螺仪和加速度计的组合连同用于微调的视觉信息一起，被应用于移动摄像机视频源。采用同步定位和地图构建(SLAM)技术，允许本申请的系统估计场景的哪些部分正在移动以及哪些部分没有移动，从而生成场景的3D模型。

作为示例，当摄像机视频源正在移动时，一个实施例中的系统根据以下步骤来确定场景的移动部分。首先，针对每个连续的视频帧，估计哈里斯(Harris)角特征点(或其他类型的特征点)；针对每对视频帧(两者在时间上相邻，并且一些对之间具有较大的时间间隔)，估计帧之间的摄像机的旋转和平移(具有六个自由轴)；并删除异常值(outlier)。一些异常值是由于噪声引起的，而其他异常值则反映了帧之间已移动的对象。其次，针对异常值的哈里斯角，为包含异常值的场景的部分引入3D运动矢量；估计这些点的移动；并且，针对一直在一起移动的特征点，估计3D运动矢量。因此，考虑到摄像机的指向，生成基于场景的静止部分的3D模型。

根据某些实施例，本申请的系统中的接收器和发送器实现在用于双向视频通信的同一设备中。

应用领域

根据各种实施例，本申请的系统可以有利地部署在实时视频通信(视频会议和网真)、视频直播(live streaming)(体育运动、音乐会、活动分享、和电脑游戏竞技)、交通监视(仪表板摄像机、道路监视、停车场监视和计费)、虚拟现实、监控、家庭监视、故事讲述、电影、新闻、社交和传统媒体、以及艺术设施、连同其他应用和行业中。

在带宽不足够大以传输整个场景的高分辨率视频的视频直播和双向通信VR/AR应用中，根据一实施例，周期性地发送整个视场的高分辨率静止图像(stills)，而以常规频率发送所选择的关注区域的高分辨率视频。在又一实施例中，视频和静止图像(stills)在VR/AR接收器处进行本地混合，从而实现AR/VR的快速呈现和低延迟。在此上下文中，典型的延迟为20ms或更低。

包括各个附图和示例的、在本申请中提供的各种实施例的描述是对本申请及其各种实施例进行举例说明，而不用于进行限制。

Claims

1.一种用于传输和呈现来自多个视场的场景的视频的方法，包括：通过从所述视频确定所述场景的静态背景来初始化三维背景模型；通过与所述视频独立地对所述背景模型进行编码来将所述场景的背景作为所述背景模型进行发送，其中，所述背景模型被增量地更新，并且其中，所述更新被进一步与所述视频独立地编码和发送；以及通过将所述背景与所述视频合并来在接收器处呈现增强的视频。

2.根据权利要求1所述的方法，其中，所述接收器是VR/AR设备。

3.根据权利要求2所述的方法，还包括：对来自所述VR/AR接收器的视线方向的关注区域进行自学习；以及发送所述关注区域的高分辨率视频，其中，通过将所述关注区域的所述高分辨率视频与所述背景合并来创建所述增强的视频。

4.一种用于传输和呈现来自多个视场的场景的视频的系统，包括：i)发送器，所述发送器包括外部编码器和核心编码器，其中，所述外部编码器适于接收所述视频并分别地将显著视频以及三维背景和几何比特流输出到所述核心编码器中，其中，所述核心编码器适于输出编码比特流；以及ii)VR/AR接收器，所述VR/AR接收器包括核心解码器和外部解码器，其中，所述核心解码器适于接收所述编码比特流并且分别地将所述显著视频以及所述背景和几何比特流输出到所述外部解码器中，其中，所述外部解码器适于合并所述显著视频以及所述背景和几何比特流，从而呈现所述场景的增强的视频。

5.根据权利要求4所述的系统，其中，所述外部编码器包括背景估计单元，所述背景估计单元适于通过从所述视频确定所述场景的静态背景来初始化三维背景模型，并且以比所述视频的比特率更低的比特率增量地更新所述背景模型。

6.根据权利要求4所述的系统，还包括：用于捕获所述场景的视频源。

7.根据权利要求6所述的系统，其中，所述视频源包括具有部分重叠的视场的一个或多个摄像机。

8.根据权利要求7所述的系统，其中，所述摄像机是移动摄像机。

9.根据权利要求8所述的系统，还适于估计所述场景的移动部分和静止部分。

10.根据权利要求9所述的系统，其中，所述外部编码器包括背景估计单元，所述背景估计单元适于基于所述场景的所述静止部分生成三维背景模型，并且以比所述视频的比特率更低的比特率增量地更新所述背景模型。

11.根据权利要求8所述的系统，其中，所述移动摄像机是云台变焦(PTZ)摄像机。

12.根据权利要求11所述的系统，其中，所述VR/AR接收器适于对来自其视线方向的关注区域进行自学习，并且其中，所述一个或多个PTZ摄像机适于捕获所述关注区域的高分辨率视频。

13.一种用于传输场景的视频的方法，包括：通过从所述视频确定所述场景的静态背景来初始化背景模型；以及通过与所述视频独立地对所述背景模型进行编码来将所述场景的背景作为所述背景模型进行发送，其中，所述背景模型被增量地更新，并且其中，所述更新被进一步与所述视频独立地编码和发送。

14.根据权利要求14所述的方法，还包括：通过将所述背景与所述视频合并来在接收器处产生增强的视频。

15.根据权利要求14所述的方法，其中，以比所述视频的比特率更低的比特率对所述背景模型进行更新和发送。

16.根据权利要求13所述的方法，还包括：针对每个帧发送所述背景和所述视频之间的几何映射。

17.根据权利要求16所述的方法，还包括：通过场景分析来确定所述视频的视场。

18.根据权利要求13所述的方法，其中，所述背景模型抑制所述视频的所述背景中的噪声变化。

19.根据权利要求13所述的方法，还包括：通过标准视频编解码器来压缩所述视频。

20.根据权利要求19所述的方法，其中，所述视频编解码器是H.264、H.265、VP8、和VP9之一。

21.根据权利要求20所述的方法，其中，所述背景在由H.264、H.265、VP8、和VP9之一定义的辅助数据信道中发送。

22.根据权利要求13所述的方法，其中，所述背景模型是参数模型。

23.根据权利要求22所述的方法，其中，所述参数模型是高斯混合(MOG)。

24.根据权利要求13所述的方法，其中，所述背景模型是非参数模型。

25.根据权利要求24所述的方法，其中，所述非参数模型是视觉背景提取器(ViB)。

26.一种用于在场景的视频上模拟云台变焦操作的方法，包括：通过从所述视频确定所述场景的静态背景来初始化背景模型；通过与所述视频独立地对所述背景模型进行编码来将所述场景的背景作为所述背景模型进行发送，其中，所述背景模型被增量地更新，其中，所述更新被进一步与所述视频独立地编码和发送，并且其中，针对每个帧发送所述背景和所述视频之间的几何映射；通过场景分析来选择所述视频的一个或多个视场；以及通过将所述背景与所述视频合并来在接收器处产生增强的视频。

27.根据权利要求26所述的方法，其中，在所述接收器处控制所述模拟的云台变焦操作。

28.根据权利要求26所述的方法，其中，在所述视频的发送器处控制所述模拟的云台变焦操作。

29.一种用于传输场景的视频的系统，包括：i)发送器，所述发送器包括外部编码器和核心编码器，其中，所述外部编码器适于接收所述视频并分别地将显著视频以及背景和几何比特流输出到所述核心编码器中，其中，所述核心编码器适于输出编码比特流；以及ii)接收器，所述接收器包括核心解码器，其中，所述核心解码器适于接收所述编码比特流并且输出所述显著视频。

30.一种用于传输场景的视频的系统，包括：i)发送器，所述发送器包括外部编码器和核心编码器，其中，所述外部编码器适于接收所述视频并分别地将显著视频以及背景和几何比特流输出到所述核心编码器中，其中，所述核心编码器适于输出编码比特流；以及ii)接收器，所述接收器包括核心解码器和外部解码器，其中，所述核心解码器适于接收所述编码比特流并且分别地将所述显著视频以及所述背景和几何比特流输出到所述外部解码器中，其中，所述外部解码器适于合并所述显著视频以及所述背景和几何比特流，从而输出所述场景的增强的视频。

31.根据权利要求30所述的系统，其中，所述外部编码器包括背景估计单元，所述背景估计单元适于通过从所述视频确定所述场景的静态背景来初始化背景模型，并且以比所述视频的比特率更低的比特率增量地更新所述背景模型。

32.根据权利要求31所述的系统，其中，所述外部编码器还包括连接到所述背景估计单元的背景编码器，所述背景编码器适于与所述视频独立地对所述背景模型和所述更新进行编码。

33.根据权利要求32所述的系统，其中，所述背景编码器包括熵编码器、熵解码器、更新预测单元、和更新存储单元。

34.根据权利要求33所述的系统，其中，所述背景编码器在下游方向连接到比特流复用器。

35.根据权利要求34所述的系统，其中，所述外部编码器还包括显著性成帧单元，所述显著性成帧单元适于将几何比特流输出到所述比特流复用器中，其中，所述比特流复用器适于合并所述几何比特流和所述背景比特流，从而输出背景和几何比特流。

36.根据权利要求35所述的系统，其中，所述外部编码器还包括能够对所述视频进行缩放和裁剪的缩减单元，所述缩减单元在下游方向连接到噪声抑制单元，所述噪声抑制单元适于基于所述背景模型来抑制所述显著视频中的噪声。

37.根据权利要求36所述的系统，其中，所述外部解码器还包括：i)比特流解复用器，适于从所述核心编码器接收所述背景和几何比特流并分别地输出所述几何比特流和所述背景比特流；ii)背景解码器，连接到所述比特流解复用器并适于接收所述背景比特流；以及iii)背景合并单元，在下游方向连接到所述比特流解复用器和所述背景解码器，其中，所述背景合并单元适于从所述核心解码器接收所述显著视频，并且将所述几何比特流和所述背景比特流与所述显著视频合并，从而产生所述场景的增强的视频。

38.根据权利要求37所述的系统，其中，所述背景解码器包括熵解码器、更新预测单元、和更新存储单元。

39.根据权利要求37所述的系统，其中，所述外部解码器还包括虚拟云台变焦单元，能够接收控制输入，从而产生增强的视频。

40.根据权利要求37所述的系统，其中，所述核心编码器是H.264/H.265视频编码器，其中，所述背景和几何比特流通过所述核心编码器的网络抽象层承载。

41.根据权利要求37所述的系统，其中，所述核心解码器是H.264/H.265视频解码器，其中，所述背景和几何比特流通过所述核心解码器的网络抽象层承载。

42.根据权利要求37所述的系统，其中，所述核心编码器处于多媒体容器格式，其中，所述背景和几何比特流通过所述核心编码器的辅助数据信道承载。

43.根据权利要求37所述的系统，其中，所述核心解码器处于多媒体容器格式，其中，所述背景和几何比特流通过所述核心解码器的辅助数据信道承载。

44.根据权利要求37所述的系统，其中，所述核心编码器是标准视频编码器，其中，所述背景和几何比特流通过所述核心编码器的辅助数据信道承载。

45.根据权利要求37所述的系统，其中，所述核心解码器是标准视频解码器，其中，所述背景和几何比特流通过所述核心解码器的辅助数据信道承载。