CN104380728B

CN104380728B - 用于混合第一视频信号和第二视频信号的方法和装置

Info

Publication number: CN104380728B
Application number: CN201380028838.5A
Authority: CN
Inventors: 布勒克 S·范; 阿尔法塞 P·龙当; C·史蒂文斯; J-F·麦克
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2012-06-01
Filing date: 2013-05-23
Publication date: 2017-08-25
Anticipated expiration: 2033-05-23
Also published as: KR20150027159A; US20150147046A1; JP6173442B2; JP2015523786A; WO2013178522A1; EP2670130A1; KR101639589B1; EP2670130B1; CN104380728A; US10244185B2

Abstract

一种用于混合第一视频信号和第二视频信号的方法，所述方法包括在混合设备处接收所述第一视频信号；接收所述第二视频信号；接收转换信息信号，其将所述第一视频信号分为透明区域和非透明区域，并且表示所述第一视频信号和所述第二视频信号之间的空间关系；根据所述转换信息信号，转换所述第二视频信号；以及组合所述第一视频信号的所述非透明区域与所述转换的第二视频信号的部分，所述转换的第二视频信号的所述部分在所述第一视频信号的所述透明区域中呈现。

Description

用于混合第一视频信号和第二视频信号的方法和装置

技术领域

本发明涉及视频处理领域。具体地说，本发明涉及混合视频信号领域。

背景技术

多个已知的多媒体编辑工具提供某种形式的视频叠加功能。这些功能允许用户在视频上叠加文本，在视频上叠加图片，在视频上叠加照片，在视频上叠加视频(PIP)，或者在视频上叠加图形。

已知解决方案使用分层方法，其中不同多媒体格式在层中的彼此之上出现。对生成的视频编码之后，各层不再单独可用。当需要不同摄像机角度以实现立体声或多视图3D时，需要生成一个或多个不同视频流，并且需要将生成的视频编码为一个视频。

发明内容

本发明实施例的一个目标是克服上述某些缺点。

根据本发明的一个方面，提供一种用于混合第一视频信号和第二视频信号的方法，所述方法包括在混合设备处：接收所述第一视频信号；接收所述第二视频信号；接收转换信息信号，其将所述第一视频信号分为透明区域和非透明区域，并且表示所述第一视频信号和所述第二视频信号之间的空间关系；根据所述转换信息信号，转换所述第二视频信号；以及组合所述第一视频信号的所述非透明区域与所述转换的第二视频信号的部分，所述转换的第二视频信号的所述部分在所述第一视频信号的所述透明区域中呈现。

本发明的一个优势是通过保留所述第一视频信号和所述第二视频信号之间的所述空间关系，使混合视频信号变成可能。因此，所述生成的混合视频看起来更自然，因为将根据所述第一视频信号的修改适当转换所述混入的第二视频信号，所述修改例如包括全景、倾斜和缩放转换、投影、反射、旋转(用于滚动和偏转)，以及所述摄像机位置的更改。

在根据本发明的方法的实施例中，所述转换包括以下一个或多个：缩放、剪切、旋转、反射、投影，以及转化所述第一视频流。

本实施例的一个优势是可以将在主要视频流中发生的最常见转换应用于所述辅助视频流。

在实施例中，根据本发明的方法进一步包括接收与所述转换信息信号关联的第一深度信息，并且根据所述第一深度信息在三维空间中执行所述转换。

在实施例中，根据本发明的方法进一步包括接收与所述第二视频信号关联的第二深度信息，并且根据所述第二深度信息在三维空间中执行所述转换。

这些实施例的一个优势是所述混合所述视频信号变得甚至更自然，因为所述第二视频信号的所述对象将在所述表示的三维空间中表现一致—即使所述生成的混合视频被表示为二维视频信号。可以根据与所述第二视频信号关联的深度信息和/或与所述转换信息信号关联的深度信息，执行所述3D转换。例如，即使所述第二视频信号作为二维信号提供(无深度信息)，它也仍然可以根据与所述转换信息关联的所述深度信息在三维空间中转换。

在实施例中，根据本发明的方法进一步包括接收与所述第一视频信号关联的第三深度信息。

本实施例的一个优势是所述混合所述视频信号变得甚至更自然，因为所述第二视频信号的所述对象将在所述表示的三维空间中表现一致，这也可以以三维呈现。

在根据本发明的方法的实施例中，所述第一视频信号和所述转换信息信号作为编码视频流的不同通道接收。

本实施例的一个优势是标准化多通道编码格式可以用于所述传输具有固有混合能力的视频流。本实施例的进一步优势是简化所述主通道(所述第一视频信号)和所述混合通道(所述转换信息信号)之间的时间同步。

根据本发明的一个方面，提供一种包括软件装置的计算机程序，所述软件装置被配置为当执行时，执行如上所述的方法。

根据本发明的一个方面，提供一种用于混合第一视频信号和第二视频信号的装置，所述装置包括：第一视频输入接口，其用于接收所述第一视频信号；第二视频输入接口，其用于接收所述第二视频信号；转换信息接口，其用于接收转换信息信号，所述转换信息信号将所述第一视频信号分为透明区域和非透明区域，并且表示所述第一视频信号和所述第二视频信号之间的空间关系；转换处理器，其在操作上耦合到所述第二视频输入接口和所述转换信息接口，所述转换处理器被配置为根据所述转换信息信号，转换所述第二视频信号；以及混合处理器，其在操作上耦合到所述第一视频接口和所述转换处理器，所述混合处理器被配置为组合所述第一视频信号的所述非透明区域与所述转换的第二视频信号的部分，所述转换的第二视频信号的所述部分在所述第一视频信号的所述透明区域中呈现。

在根据本发明的装置的实施例中，所述转换处理器被配置为应用以下一个或多个：缩放、剪切、旋转、反射、投影，以及转化所述第二视频信号。

在根据本发明的装置的实施例中，所述转换信息接口进一步适合于接收与所述转换信息信号关联的第一深度信息，并且所述转换处理器被配置为根据所述第一深度信息在三维空间中转换所述第二视频信号。

在根据本发明的装置的实施例中，所述第二视频输入接口进一步适合于接收与所述第二视频信号关联的第二深度信息，并且所述转换处理器被配置为根据所述第二深度信息在三维空间中转换所述第二视频信号。

在根据本发明的装置的实施例中，所述第一视频输入接口进一步适合于接收与所述第一视频信号关联的第三深度信息。

根据本发明的一个方面，提供一种用于如上所述的方法的视频流，所述视频流包括所述第一视频信号作为主通道，以及所述转换信息信号作为额外通道。

在实施例中，根据本发明的视频流进一步包括深度信息。

所述深度信息可以与所述第一视频信号和/或所述转换信息信号有关。

根据本发明的一个方面，提供一种视频服务器，其被配置为提供如上所述的视频流。

根据本发明的装置、视频流和服务器的实施例的效果和优势在细节上作必要修改后，与根据本发明的方法的对应实施例相同。

附图说明

现在仅通过实例的方式并且参考附图，描述根据本发明实施例的装置和/或方法的某些实施例，这些附图是：

图1提供根据本发明实施例的方法的流程图；

图2提供根据本发明实施例的装置的示意图；

图3示出本发明的示例性应用；

图4示出本发明的示例性应用；以及

图5示出本发明的示例性应用。

具体实施方式

在现有视频上图片叠加方法中，如果选定图片格式支持透明度(例如，PNG或SWF格式)，则图片的各部分可以是透明的。在这种情况下，图片后面的视频可以“窥视”透明区域。如果叠加工具支持MNG(移动PNG)，则可以叠加多个多媒体格式，其中MNG视频中的透明区域将允许底层多媒体格式窥视。因为现代浏览器支持MNG，所以目前通常支持(非同步)MNG视频上的视频叠加。

现有解决方案不允许辅助实时(3D)视频流在深度上与第一(3D)视频流叠加。因此，不可能在其中第二(3D)视频流将变得可见的第一视频流中定义静态或动态3D区域—具有α和深度。

诸如视频之类的2D或3D多媒体格式的主要组成部分是颜色信息(例如，RGB、YUV或HSV)、深度信息(通常为标量或“灰度”值)，以及透明度或“α”信息(也是标量或“灰度”值)。本发明的实施例基于以下洞察：可以通过在这些多媒体格式中包括额外信息通道，使上述实时无缝混合视频流变成可能。

适用本发明的多媒体格式是静态图像编码/容器格式，其包括但不限于：PNG、GIF、JPG、TIFF、RIFF、WebP、SVG和BMP；以及移动图像编码/容器格式，其包括但不限于：MNG、动画GIF、MPEG、AVI、WMV、MOV、RM、3GP、VP8、WebM、Theora、Ogg和OGM。其中参考视频编码，可以使用诸如H.264、HEVC之类的代码，以及所属技术领域的技术人员已知的其它编解码器。

本发明的实施例尤其基于发明者的以下洞察：在第一多媒体格式中包括一系列通道是有利的，每个通道包含颜色、深度和透明度信息，其中每个通道定义该第一多媒体格式中的独有区域，在该区域中允许混入(融入)从另一个独立源接收的第二多媒体格式。因此，本发明的实施例在客户机侧实现实时混合。但是，还可以应用本发明以便在服务器侧(例如，在位于核心网络或接入网络中的视频服务器上)实现混合。每个通道的颜色、深度以及透明度信息还可以被额外地定义为数学2D或3D区域、雕刻3D区域，或者任何其它可行的2D/3D区域定义。

为了易于理解，以下将包括透明部分的视频流称为“主要视频流”，而将包括要在所述透明部分中出现的视觉信息的流(多个)(即，在第一视频流“后面”显示并且窥视后者的透明区域的流(多个))称为“辅助视频流(多个)”。当以单数形式使用“辅助视频流”时，这并非旨在排除其中混入多个辅助视频流的实施例。

术语“主要视频流”和“辅助视频流”的使用不失一般性，具体地说，并不排除“层叠”或递归使用，其中第二视频流也包括透明区域以便引入进一步(较低阶)流。此外，术语“视频”的使用并不排除随时间保持不变的输入馈送(即，表示静态图像的馈送)。因此，本发明也包括以下实施例：其中主要视频流和/或辅助视频流实际上由适当格式的静态图像表示。

主要视频流包括表示实际图像颜色信息的主通道，以下也称为“第一视频信号”。辅助视频流也包括表示实际图像颜色信息的主通道，以下也称为“第二视频信号”。

定义主要视频流中的独有区域(其中可以插入辅助视频流)的额外通道称为“混合通道”。在更抽象的层次上，这些通道也称为“转换信息(信号)”，因为它们定义获得主要流和混入的辅助流的所需几何关系需要的转换；具体地说，转换信息包括锚定信息，即，定义混入的辅助流在主要流中锚定的位置的信息。转换信息信号优选地与视频信号一起作为相同流中的单独通道提供，但这不是必需的；转换信息也可以通过任何适当的装置单独提供。转换信息信号可以是动态的或静态的，即，它可以作为视频景物中的移动区域或静态图像提供。

本发明实施例的一个优势是可以提供平台，其中可以使用发现转换信息信号的指令和来自客户机(查看器)的可选指令，将主要视频信号与一个或多个辅助视频信号自主混合，其中不同信号可以源自不同(分布式)源，并且其中中央导控器并不预定最终合成结果。由于系统的(分布式)实时行为，仅允许主要流的发起者定义允许的合成的几何形状，而不是最终合成结果。

从描述中显而易见，辅助流的转换及其与主要流的组合可以导致仅辅助流的一部分可见。具体地说，辅助流的各部分可以由主要流的非透明部分覆盖，主要流的呈现好像它是位于辅助流“之上”的层。此外，所需的转换可以包括诸如以下的转换：放大、转化和旋转，这可以将原始辅助流的某些部分投影到位于控制视口(通常为在水平和垂直方向具有固定数量像素的矩形)外部的坐标。

根据本发明的实施例，图1示出用于混合第一视频信号和第二视频信号的方法，所述方法包括在混合设备处：接收第一视频信号101，接收第二视频信号102；接收转换信息信号103，其将第一视频信号分为透明区域和非透明区域，并且表示第一视频信号和第二视频信号之间的空间关系；根据转换信息信号，转换110第二视频信号；以及组合120第一视频信号的非透明区域与转换的第二视频信号的部分，转换的第二视频信号的部分在第一视频信号的透明区域中呈现。

转换信息确保第一视频流和第二视频流可以通过一致的空间相互关系混合，并且优选地在时间上同步。在数学上，转换信息可以被视为在主要视频流表示的空间中固定的参考帧的“起源”和一组基向量。

转换信息可以包括一个或多个指定的属性，这些属性定义例如用于缩放、大小设置、修剪、反射、倾斜、旋转和过滤的特征。在混合之前，可以向来自辅助通道(多个)的视频信号应用指定的过滤器。

优选地，第一视频信号和转换信息信号分别作为主视频流的主通道和混合通道提供。在特殊情况下，主视频流仅包括透明区域，因此仅是用于任何数量的混合通道的容器。

在本发明的实施例中，混合通道被表示为数学区域。这些区域可以使用专用标识符定义，或者使用与3D视频中的绝对或相对位置组合的数学公式定义。实例是2D分段常值函数和2D平面梯度。可以为这些区域指定单一颜色和单一透明度值。在另一个实施例中，不提供颜色和透明度值，以便接收者针对这些区域回退到100％透明度。在另一个实施例中，可以提供一个或多个颜色和透明度梯度。

根据本发明的实施例，图2示出用于混合第一视频信号和第二视频信号的装置200，所述装置包括：第一视频输入接口201，其用于接收第一视频信号；第二视频输入接口202，其用于接收第二视频流；转换信息接口203，其用于接收转换信息信号，转换信息信号将第一视频信号分为透明区域和非透明区域，并且表示第一视频信号和第二视频信号之间的空间关系；转换处理器210，其在操作上耦合到第二视频输入接口202和转换信息接口203，转换处理器210被配置为根据转换信息信号，转换第二视频信号；以及混合处理器220，其在操作上耦合到第一视频接口201和转换处理器210，混合处理器220被配置为组合第一视频信号的非透明区域与转换的第二视频信号的部分，转换的第二视频信号的部分在第一视频信号的透明区域中呈现。

尽管上面描述了多个接口201、202、203，但这不失一般性，并且并不排除其中使用相同接口履行数个功能的实现。术语“接口”指定在软件平台(例如，应用编程接口API)的不同部分之间，在存储介质和软件平台之间，或者在通信网络中的节点之间建立数据通信需要的必需硬件和软件，如所属技术领域的技术人员公知的那样。优选地，使用标准化协议。在用户接入网络中，接入接口例如可以包括用于xDSL、xPON、WMAN或3G链路的接口。LAN接口例如可以包括用于IEEE 802.3“以太网”链路、IEEE 802.11“无线LAN”链路的一个或多个的接口。PAN接口例如可以包括USB接口或蓝牙接口。

优选地使用允许绑定多个通道的视频编码方案，以一个或多个混合通道的形式，将转换信息信号与第一视频信号绑定。

图3示意性地示出示例性应用，其中根据本发明的装置200被布置为经由第一接口201/203，从第一视频服务器300接收主要视频流。根据本发明，第一视频服务器300提供包括第一视频信号和转换信息信号的主要视频流，分别作为主通道和混合通道。装置200被进一步布置为经由第二接口202，从第二视频服务器310接收辅助视频流。第二视频服务器310也可以被配置为在辅助视频流中包括一个或多个混合通道，但这不是必需的。在装置200处，对接收的视频流解码，如上所述转换从辅助视频流提供的第二视频信号，并且基于第一视频信号和转换的第二视频信号，根据转换信息产生混合视频信号。

混合区域的对齐可以自动完成，或者根据(实时)用户输入完成。当多个混合区域可用时，区域的选择可以自动完成，或者根据(实时)用户输入完成。用户可以可选地激活和/或调整第二视频信号的其它处理。

根据本发明的方法和装置例如可以用于2D多媒体格式以便支持运动视差。实际上，例如某个视频录制(第一多媒体格式)中的透明窗口(在房屋或办公楼中)的变化位置与例如另一个视频录制(第二多媒体格式)中的某个人的静态位置混合，将导致这个人在第一视频录制中相对于摄像机的移动而移动。

优选地采用混合通道形式的转换信息可以将窗口的2D区域定义为透明的，并且大的3D区域直接在窗口的后面。当该2D视频与辅助2D或3D视频混合时，辅助视频在不同位置中混合，具体取决于主要视频的摄像机的视点。

如果主要视频是非交互式视频流(例如，常规电影)，则提供的视频流隐含摄像机的视点。对于实时生成的内容也是如此，其中(人工或自动)导控器进行有关应该捕获的内容的所有选择。但是，本发明也适用于以下情况：其中最终用户，即组合视频流的查看者控制摄像机的视点。这种控制可以通过常规用户接口(鼠标和/或键盘、手势检测等)实现，或者通过查看者在显示器前面的物理空间中的实际移动实现，在这种情况下，必须通过足够的传感器捕获这些移动，如虚拟现实领域公知的那样。

图4通过示例性应用示意性地示出这种效果。主要视频流在房屋400内部发射，由具有门410和窗户420的前墙400F限定。技术人员应该理解，房屋可以备选地是被布置为看似房屋的工作室，或者计算机生成的适当3D景物的呈现。门410具有透明窗格410a，并且窗户420具有透明窗格420a-d，通过它们可以看到虚拟“外部景物”。“外部景物”限于区域450，区域450在图4右边的顶视图中表示为散列矩形，并且在图4左上方的视图A中表示为虚线矩形。

在该设置中，透明区域410a和420a-d与空间区域450(仅在房屋外部定义)的组合将定义混合区域，其中可以混合来自辅助视频流的内容。该混合区域由转换信息指定，转换信息优选地以一个或多个混合通道的形式提供。在示出的实例中，提供辅助视频流，其包括在风中摆动的一棵向日葵430的图像。一般而言，辅助流可以是3D流(具有深度信息的视频信号)或2D流。

根据本发明，转换信息用于在空间上将辅助流绑定到主要流。在这种特定情况下，外部景物的向日葵430在参考混合区域450的固定点处保持。如果外部景物作为2D流提供，则它可以在投影点虚线460的位置处作为矩形屏幕引入到景物中。应该注意，可能必须缩放和/或转换原始辅助流，以便符合在控制主要视频流的透视图中看到的“矩形”几何形状—具体地说，可以将矩形转换为梯形。如果外部景物作为3D流提供，则它应该正确地在三维中呈现，以便其内容落在混合区域450定义的深度边界内。然后将主要视频信号及其透明区域410a和420a-d放在外部景物之上作为叠加，从而显示房屋内部，其中外部景物的适当部分通过窗户和门窗格可见。

在图4右边的顶视图中示出三个示例性摄像机位置A、B、C及其相应的视向。图4左边的三个视图对应于这些摄像机位置。视图A表示垂直指向房屋前墙400F的中心的摄像机拍摄的视图。向日葵430通过窗格420a和420c完全可见，除了缩放之外没有任何失真。视图B表示在视图A的摄像机稍微偏右的摄像机拍摄的视图，其中摄像机更多地指向左墙400L。因此，向日葵430的图像将相对窗户420的边缘向右移动。向日葵430的一部分仍然可以通过窗格420a和420c看到，而其余部分移动到窗格420b和420d中。视图C表示在视图A的摄像机稍微偏左的摄像机拍摄的视图，其中摄像机更多地指向右墙400R。因此，向日葵430的图像将相对窗户420的边缘向左移动。仅向日葵430的一部分仍然可以通过窗格420a和420c看到，而其余部分现在由前墙400F挡住而未出现在视图中。

优选地，混合通道包括颜色信息、深度信息和透明度信息的一个或多个。如果混合通道不包括颜色信息，则与第一视频流混合的辅助视频流将提供适当呈现混合视频流需要的颜色信息。如果提供颜色信息，则该信息将根据其透明度级别与辅助视频流的颜色信息混合。

主要和辅助视频流中的主视频通道和混合视频通道不一定必须在相同维度中。因此，主通道以及一个或多个混合通道的每一个可以是二维的或三维的。

此外，主通道以及一个或多个混合通道的每一个可以包括一个或多个视点。在图4的实例中，可以在主要视频流中包括三个摄像机视点A、B、C。辅助视频在不同位置中混合，具体取决于用户针对主要视频选择的视点。该技术也可以应用于以下情况：其中主要通道是静态图像而不是移动图像。

在另一个实施例中，3D辅助视频可以在3D中显示，而单一视点2D主要视频保持在2D中。

本发明的另一个示例性应用是房间的3D视频，其中在桌子周围提供不同3D透明区域。然后可以将位于远处的单独用户的(3D)视频流(使用背景去除)混合到透明区域中。根据选定视点，桌子和某些参与者的视频流将部分或全部在某些其它参与者的前面。这类似于实际情况，其中桌子或人部分挡住整个人的视图，例如人的腿在桌子下面。

图5示出本发明的这种示例性应用，其中混合区域由圆柱510表示，其中去除下半部的前向一半。可以很容易地在桌子500的周围定位一个或多个这种混合区域501、502、503，以便在桌子500的上面定位上半部的剩余前向部分，而在桌子500的后面定位整个后向一半。当例如坐在桌子旁边的人的辅助视频与主要视频对齐时，辅助视频中的人的3D图像显示为坐在主要视频的桌子500的旁边，即使当他靠在桌子上时也是如此。当准确对齐时，辅助视频中的桌子上存在的纸张或物品也在混合视频中可见。

在本发明的上下文中，具体地说在图5中示出的实施例的视图中，需要用户手动旋转辅助信号(多个)以便定位其对应物的图像以面向桌子，这是不可取的。在有利的实施例中，一个或多个通道因此包括促进自动对齐的其它属性。该属性可以包括以下一个或多个：中心坐标以及简正或正面坐标标识的向量、2D/3D缩放系数，以及测量单位或大小校准系数。可以通过根据向量在景物中的所需(虚拟)位置，在空间中适当地对齐向量(多个)，获得图像的自动对齐。

尽管上面将方法和装置作为单独实施例进行了描述，但这仅为了清晰起见，并且应该注意，仅结合方法实施例描述的特性可以应用于根据本发明的装置以便获得相同的技术效果和优势，反之亦然。

附图中示出的各种元件(包括标记为“处理器”的任何功能框)的功能，可以通过使用专用硬件以及能够执行软件的硬件与适当软件结合来提供。当由处理器提供时，功能可以由单个专用处理器、单个共享处理器，或者多个单独处理器(其中某些处理器可以共享)提供。此外，显式使用术语“处理器”或“控制器”不应被解释为专门指能够执行软件的硬件，并且可以隐式包括但不限于数字信号处理器(DSP)硬件、网络处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)，以及非易失性存储装置。也可以包括其它常规和/或定制硬件。同样，附图中示出的任何交换机仅是概念性的。可以通过程序逻辑操作、通过专用逻辑、通过程序控制和专用逻辑的交互，或者甚至手动执行它们的功能，特定技术可由实施者选择，如从上下文更具体理解的那样。

所属技术领域的技术人员很容易地理解，上述各种方法的步骤可以由程控计算机执行。在此，某些实施例也旨在包括程序存储器件(例如，机器或计算机可读的数字数据存储介质)，并且对机器可执行或计算机可执行指令程序编码，其中所述指令执行所述上述方法的部分或全部步骤。程序存储器件例如可以是数字存储器、磁存储介质(例如磁盘和磁带)、硬盘驱动器，或者光可读数字数据存储介质。实施例也旨在包括被编程为执行上述方法的所述步骤的计算机。

Claims

1.一种用于混合第一视频信号和第二视频信号的方法，所述方法包括在混合设备处：

-接收所述第一视频信号；

-接收所述第二视频信号；

-接收转换信息信号，其将所述第一视频信号分为透明区域和非透明区域，并且表示所述第一视频信号和所述第二视频信号之间的空间关系，该转换信息信号定义了所述第二视频信号中包括的图像将在所述第一视频信号中包括的图像中锚定的位置；

-根据所述转换信息信号，转换所述第二视频信号；以及

-组合所述第一视频信号的所述非透明区域与所述转换的第二视频信号的一部分，所述转换的第二视频信号的所述一部分在所述第一视频信号的所述透明区域中呈现；

其中所述第一视频信号和所述转换信息信号分别作为主视频流的主通道和混合通道而被提供；并且其中所述混合通道表示为数学区域，该数学区域能够通过使用专用标识符或者与绝对或相对位置坐标组合的数学公式来定义。

2.根据权利要求1所述的方法，其中所述转换包括以下一个或多个：缩放、旋转、投影，以及转化所述第二视频信号。

3.根据权利要求1或权利要求2所述的方法，进一步包括接收与所述转换信息信号关联的第一深度信息，其中根据所述第一深度信息在三维空间中执行所述转换。

4.根据权利要求1或权利要求2所述的方法，进一步包括接收与所述第二视频信号关联的第二深度信息，其中根据所述第二深度信息在三维空间中执行所述转换。

5.根据权利要求1或权利要求2所述的方法，进一步包括接收与所述第一视频信号关联的第三深度信息。

6.根据权利要求1或权利要求2所述的方法，其中所述第一视频信号和所述转换信息信号作为编码视频流的不同通道接收。

7.根据权利要求1所述的方法，其中所述主视频流进一步包括深度信息。

8.根据权利要求7所述的方法，其中所述主视频流由视频服务器提供。

9.一种用于混合第一视频信号和第二视频信号的装置，所述装置包括：

-第一视频输入接口，其用于接收所述第一视频信号；

-第二视频输入接口，其用于接收所述第二视频信号；

-转换信息接口，其用于接收转换信息信号，所述转换信息信号将所述第一视频信号分为透明区域和非透明区域，并且表示所述第一视频信号和所述第二视频信号之间的空间关系，该转换信息信号定义了所述第二视频信号中包括的图像将在所述第一视频信号中包括的图像中锚定的位置；

-转换处理器，其在操作上耦合到所述第二视频输入接口和所述转换信息接口，所述转换处理器被配置为根据所述转换信息信号，转换所述第二视频信号；以及

-混合处理器，其在操作上耦合到所述第一视频接口和所述转换处理器，所述混合处理器被配置为组合所述第一视频信号的所述非透明区域与所述转换的第二视频信号的一部分，所述转换的第二视频信号的所述一部分在所述第一视频信号的所述透明区域中呈现；

10.根据权利要求9所述的装置，其中所述转换处理器被配置为应用以下一个或多个：缩放、旋转、投影，以及转化所述第二视频信号。

11.根据权利要求9或权利要求10所述的装置，其中所述转换信息接口进一步适合于接收与所述转换信息信号关联的第一深度信息，并且其中所述转换处理器被配置为根据所述第一深度信息在三维空间中转换所述第二视频信号。

12.根据权利要求9或权利要求10所述的装置，其中所述第二视频输入接口进一步适合于接收与所述第二视频信号关联的第二深度信息，并且其中所述转换处理器被配置为根据所述第二深度信息在三维空间中转换所述第二视频信号。

13.根据权利要求9或权利要求10所述的装置，其中所述第一视频输入接口进一步适合于接收与所述第一视频信号关联的第三深度信息。