CN101771830B

CN101771830B - 立体全景视频流生成方法、设备及视频会议方法和设备

Info

Publication number: CN101771830B
Application number: CN200810247531A
Authority: CN
Inventors: 李凯
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd; Huawei Device Shenzhen Co Ltd
Priority date: 2008-12-30
Filing date: 2008-12-30
Publication date: 2012-09-19
Anticipated expiration: 2028-12-30
Also published as: CN101771830A

Abstract

本发明实施例提供了一种立体全景视频流生成方法、设备及视频会议方法和设备，该方法包括：获取至少两个视频图像的深度信息；根据每个视频图像的深度信息从对应的视频图像中获取多个深度层次的图像数据；根据获取的多个深度层次的图像数据进行视频图像数据间的拼接，生成立体全景视频流。用以能够基于不同显示设备的多显示方式向用户提供全景的、高分辨率的、无缝的和三维立体的网真会议视频图像。

Description

立体全景视频流生成方法、设备及视频会议方法和设备

技术领域

本发明关于视频拼接技术，特别是关于网真会议系统中的视频拼接技术，具体的讲是一种立体全景视频流生成方法、设备及视频会议方法和设备。

背景技术

现有的网真(Telepresence)技术是一种将高质量的音频、高清晰视频画面和交互式组件结合在一起的技术，旨在通过网络提供有如身临其境的独特体验。例如，在网真会议系统中利用高级视频、音频和协作技术能够为用户提供实时的面对面交互体验。网真会议系统甚至能提供房中套房的画面，通过实物大小的图像、高清晰的分辨率以及立体和多声道音频，围绕着一张虚拟会议桌创造面对面的会议体验。虽然现有的网真能够给用户带来相对于传统会议系统的更好的、更真实的房中套房会议体验，但距离现实的面对面的真人交流还差距，那就是缺乏真实的立体感受。人们得到的视频信息仅仅是二维平面的信息，并没有获得有深度层次感觉的交流信息。

现有的立体(3D)视频技术可以提供符合立体视觉原理的深度信息，从而能够真实地重现客观世界景象，表现出场景的纵深感、层次感和真实性，是当前视频技术发展的重要方向。但由于技术不成熟，显示设备昂贵和缺乏标准等原因一直没有大规模应用。

现有的图像拼接技术可以突破成像设备本身的物理限制，得到大视场的数字全景图像。但是，图像拼接中的(一)重构虚拟视点的遮挡与空洞问题；(二)原始视点差距较大，导致视差较大，进而需要产生连续视点的中间虚拟视点图的数目将陡然增加，运算量将增大的问题；(三)视差的计算问题；仍然没有得到很好的解决。

由于存在上述的诸多问题，所以现有技术的网真会议系统还无法向用户提供全景的、高分辨率的、无缝的以及三维立体的会议体验。

发明内容

为了克服现有技术中的缺陷，本发明实施例提供了一种立体全景视频流生成方法、设备及视频会议方法和设备，用以能够基于不同显示设备的多显示方式向用户提供全景的、高分辨率的、无缝的和三维立体的网真会议视频图像。

本发明实施例的目的之一是，提供一种立体全景视频流生成方法，该方法包括：获取至少两个视频图像的深度信息；根据每个视频图像的深度信息从对应的视频图像中获取多个深度层次的图像数据；根据获取的多个深度层次的图像数据进行视频图像数据间的拼接，生成立体全景视频流；所述的根据获取的多个深度层次的图像数据进行视频图像数据间的拼接包括：对相同深度层次的图像数据进行视频图像数据间的拼接；所述的对相同深度层次的图像数据进行拼接包括：检测每个视频流当前帧中每个深度层次的图像数据相对上一帧对应深度层次图像数据的图像变化区域，确定所述的变化区域大于设定的阈值后，则仅对所述变化区域的图像数据进行拼接。

本发明实施例的目的之一是，提供一种立体全景视频会议方法，该方法包括：至少从两个视角同步获取同一会场的视频流；根据每个视频流的深度信息从对应的视频流中获取多个深度层次的图像数据；对获取的不同视角的视频流进行基于深度信息的拼接，生成立体全景视频流；根据终端显示器的类别，将所述立体全景视频流的视频图像显示在终端显示器上；建立手势信息与显示控制指令的映射关系；从一个视角获取所述会场内的人的手势视频图像，获取手势信息；根据获取的手势信息从所述的映射关系中获取对应的显示控制指令；根据获取的显示控制指令控制所述终端显示设备的显示。

本发明实施例的目的之一是，提供一种立体全景视频流生成设备，该设备包括：深度信息获取装置，用于获取至少两个视频图像的深度信息；分层图像获取装置，用于根据每个视频图像的深度信息从对应的视频图像中获取多个深度层次的图像数据；立体全景视频流生成装置，用于根据获取的多个深度层次的图像数据进行视频图像数据间的拼接，生成立体全景视频流；所述的立体全景视频流生成装置包括：图像拼接单元，用于对相同深度层次的图像数据进行视频图像数据间的拼接；图像检测单元，用于检测每个视频流当前帧中每个深度层次的图像数据相对上一帧对应深度层次图像数据的图像变化区域，确定所述的变化区域大于设定的阈值后输出图像拼接指令；所述的图像拼接单元根据所述的图像拼接指令对所述变化区域的图像数据进行图像数据间的拼接。

本发明实施例的目的之一是，提供一种立体全景视频会议设备，所述的设备包括：深度信息获取装置，至少从两个视角同步获取同一会场的视频流；分层图像获取装置，用于根据每个视频流的深度信息从对应的视频流中获取多个深度层次的图像数据；立体全景视频流生成装置，对获取的不同视角的视频流进行基于深度信息的拼接，生成立体全景视频流；视频图像显示装置，用于根据终端显示器的类别，将所述立体全景视频流的视频图像显示在终端显示器上；手势指令存储装置，用于存储手势信息与显示控制指令的映射关系；手势信息获取装置，用于从一个视角获取所述会场内的人的手势视频图像和手势信息；显示指令获取装置，用于根据获取的手势信息从所述的映射关系中获取对应的显示控制指令；显示器控制装置，用于根据获取的显示控制指令控制所述终端显示器的显示。

本发明实施例的有益效果在于，通过本发明实施例提供的技术方案，实现了快速、实时的视频图像拼接，降低了视频图像拼接的复杂度，提高了视频图像拼接的效率。可以向用户提供全景的、高分辨率的、无缝的、三维立体的会议体验。能够获得比传统网真更高级的、真实的感受。解决了在多视点视频拼接时，出现的由于视差带来的重影问题，特别是对于近景视差较为明显的场景。并且能够针对不同显示设备的多显示方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于深度摄像机的多视点视频会议系统示意图；

图2为本发明实施例的立体全景视频流生成流程图；

图3A为本发明实施例的的立体全景视频流生成设备的结构框图；

图3B为本发明实施例的立体全景视频流生成装置结构框图；

图4为本发明实施例基于人物层和非任务层的视频拼接示意图；

图5为本发明实施例的立体全景视频会议的工作流程图；

图6为本发明实施例的立体全景视频会议设备的结构框图；

图7A为本发明实施例的立体全景视频会议系统的结构框图；

图7B为本发明实施例视频图像显示装置的结构框图；

图8为本发明实施例的视频拼接流程图；

图9为本发明实施例的两个视频图像序列的示意图；

图10为本发明实施例的会场A的示意图；

图11为本发明实施例视频拼接流程图；

图12为本发明实施例的会场A的示意图；

图13和图14为本发明实施例手势指令示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本具体实施方式提出了基于深度摄像机构成的多会场、二维(2D)/三维(3D)/多层(Mulit-Layer)、以及多视点的视频会议系统。

其中会场A包括：深度摄像机(101A，102A)，视频会议服务器103A，和终端显示设备(104A，105A)。深度摄像机(101A，102A)通过视频会议服务器103A与终端显示设备(104A，105A)相连接，终端显示设备(104A，105A)可以是2D显示器、3D显示器或多层显示器(Mulit-Layer)。

会场B包括：深度摄像机(111B，112B)，服务器113B，深度摄像机(111B，112B)与服务器113B相连接。

会场C包括：深度摄像机(121C，122C)，服务器123C，深度摄像机(121C，122C)与服务器123C相连接。

会场D包括：深度摄像机(131D，132D)，服务器133D，深度摄像机(131D，132D)与服务器133D相连接。

服务器103A通过网络142和传输设备141分别与服务器(113B，123C，133D)相连接。网络142可以是电缆、互联网或卫星网。

实施例一

如图2所示，本发明实施例的立体全景视频流生成方法包括以下步骤：获取至少两个视频图像的深度信息(步骤S201)；根据每个视频图像的深度信息从对应的视频图像中获取多个深度层次的图像数据(步骤S202)；根据获取的多个深度层次的图像数据进行视频图像数据间的拼接，生成立体全景视频流(步骤S203)。

如图1所示，由深度摄像机(111B，112B)从两个视角同步获取会场B的视频流和每帧图像的深度信息；根据图像的深度信息获得不同深度层次的深度图像，对于深度层次变化很小的区域，一般只作一次图像拼接；而对于运动变化的人和物，需要实时进行逐帧图像拼接。

深度层次变化小的区域一般是指：会议场景中固定的家具、位置固定的视讯通讯设备(如：摄像机、大屏幕显示设备、打印机等)，这些区域基本是不变化的，深度层次也基本不变化或者变化很小，这样就可以通过诸如深度摄像机的方式把这些深度层次变化小的区域预先提取出来，单独进行2个摄像机视频的无缝拼接。

深度层次变化大的区域一般是指，运动的人或物(如椅子)。与会的人一般会做些动作，同时椅子也会动。如果人(不伸手)相对摄像机前后运动较大，将导致人物在时间轴中所体现的深度层次变化较大，但在同一时刻不同摄像机所拍摄图像中的人还是在同一深度层次，这个很容易进行无缝图像拼接，利用传统的图像拼接技术就可以实现。如果人(伸手)相对摄像机前后运动较大，在同一时刻不同摄像机所拍摄图像中的人则不在同一深度层次，产生了不同层次的深度/视差，在进行图像拼接时，需根据每个视频图像的深度信息从对应的视频图像中获取人物图像数据和非人物图像数据。对非人物图像数据进行拼接，生成非人物拼接图像数据；对人物图像数据进行拼接，生成人物拼接图像数据；将所述的人物拼接图像数据与所述的非人物拼接图像数据进行粘贴，生成立体全景视频流。对人物图像数据进行拼接时，可以检测每个视频流当前帧中每个人物图像数据相对上一帧对应人物图像数据的图像变化区域，确定所述的变化区域大于设定的阈值后，则仅对变化区域的人物图像数据进行拼接。

或者根据每个视频图像的深度信息从对应的视频图像中获取背景视频图像数据和前景图像数据。对获取的背景图像数据进行拼接，生成背景全景图像数据；对获取的前景图像数据进行拼接，生成前景拼接图像数据；将所述的前景拼接图像数据粘贴到所述的背景全景图像数据，生成立体全景视频流。对前景视频图像数据进行拼接时，可以检测每个视频流当前帧的前景图像数据相对上一帧前景图像数据的视频图像变化区域，确定所述的变化区域大于设定的阈值后，则仅对变化区域的前景图像数据进行拼接。

如图4所示，根据图像的深度信息从视频图像(401，402)中获取人物图像数据(406，407)和非人物图像数据(403，404)；对非人物图像数据(403，404)进行拼接，生成非人物拼接图像数据405；对人物图像数据(406，407)进行拼接，生成人物拼接图像数据408；将所述的人物拼接图像数据408与所述的非人物拼接图像数据405进行粘贴，生成合成视频图像409并编码输出。

通过本发明实施例提供的技术方案，实现了快速、实时的视频图像拼接，降低了视频图像拼接的复杂度，提高了视频图像拼接的效率。可以向用户提供全景的、高分辨率的、无缝的、三维立体的会议体验。能够获得比传统网真更高级的、真实的感受。解决了在多视点视频拼接时，出现的由于视差带来的重影问题，特别是对于近景视差较为明显的场景。

实施例二

如图3A所示，本发明实施例的立体全景视频流生成设备包括：深度信息获取装置301用于获取至少两个视频图像的深度信息；分层图像获取装置302用于根据每个视频图像的深度信息从对应的视频图像中获取多个深度层次的图像数据；立体全景视频流生成装置303用于根据获取的多个深度层次的图像数据进行视频图像数据间的拼接，生成立体全景视频流。

分层图像获取装置302根据每个视频图像的深度信息从对应的视频图像中获取人物图像数据，根据每个视频图像的深度信息从对应的视频图像中获取非人物图像数据。如图3B所示，立体全景视频流生成装置303包括：图像拼接单元3301和图像检测单元3302；图像拼接单元3301对非人物图像数据进行拼接，生成非人物拼接图像数据，并对人物图像数据进行拼接，生成人物拼接图像数据；然后将人物拼接图像数据与非人物拼接图像数据进行粘贴，生成立体全景视频流。图像检测单元3302检测每个视频流当前帧中每个人物图像数据相对上一帧对应人物图像数据的图像变化区域，确定变化区域小于设定的阈值后，图像拼接单元3301仅对变化区域的人物图像数据进行拼接。

分层图像获取装置302根据每个视频图像的深度信息从对应的视频图像中获取前景图像数据，并根据每个视频图像的深度信息从对应的视频图像中获取背景图像数据。立体全景视频流生成装置303包括：图像拼接单元3301和图像检测单元3302；图像拼接单元3301对获取的背景图像数据进行拼接，生成背景全景图像数据，并对获取的前景图像数据进行拼接，生成前景拼接图像数据；然后将所述的前景拼接图像数据粘贴到所述的背景全景图像数据，生成立体全景视频流。图像检测单元3302检测每个视频流当前帧的前景图像数据相对上一帧前景图像数据的视频图像变化区域，确定所述的变化区域小于设定的阈值后，图像拼接单元3301仅对变化区域的前景图像数据进行拼接。

实施例三

如图5所示，本发明实施例的立体全景视频会议方法包括：至少从两个视角同步获取同一会场的视频流(步骤S501)；根据每个视频流的深度信息从对应的视频流中获取多个深度层次的图像数据(步骤S502)；对获取的不同视角的视频流进行基于深度信息的拼接，生成立体全景视频流(步骤S503)；根据终端显示器的类别，将所述立体全景视频流的视频图像显示在终端显示器上(步骤S504)。

如图8所示，步骤S801、对初始帧进行视频拼接从而计算得到完整的拼接图，拼接初始帧第一图和第二图；步骤S802、对后续的视频序列首先检测当前帧第一图与前一帧的变化区域；步骤S803、如果变化区域较小；步骤S805、则仅对变化的区域进行视频拼接计算得到局部拼接图；步骤S806、并利用该局部区域更新前一帧或初始帧之间的对应变化区域，生成当前帧的拼接图；步骤S804、若变化区域过大，则完整计算当前帧的拼接；步骤S807、读取下一帧图像；步骤S808、判断是否为最后一帧？如果是则结束，如果否则转到步骤S802。由于图像序列之间一般具有较强的相关性，变化的区域仅为场景内容的一部分，所以采用该算法可以显著降低视频拼接的算法复杂度，如此，在进行视频拼接时可以采用较复杂的算法，在满足视频拼接实时的同时获得较准确的全景拼接视频。

上述方案中，采用的是当前帧参考前一帧计算变化区域，对于场景相对固定的会议等其它场景，也可以采用当前帧相对初始帧检测变化区域。

利用如图1所示的摄像机即可获得如图9所示的第一、第二图像序列，视频序列即对第一图像序列和第二图像序列中对应的图像对进行拼接，获得每一图像对的拼接图，对拼接图进行立体编码并输出。对终端显示类别进行判断，如果终端显示设备是二维显示器，则显示合成视频图像的二维图像信息；如果终端显示设备是三维立体显示器，则显示合成视频图像的三维立体图像信息；如果终端显示设备是多层显示器，则显示合成视频图像的多个深度层次的图像信息。

本发明实施例的有益效果在于，可以向用户提供全景的、高分辨率的、无缝的、三维立体的会议体验。解决了在多视点视频拼接时，出现的由于视差带来的重影问题，特别是对于近景视差较为明显的场景。提供了一种针对不同显示设备的多显示方式。可以利用多层显示器，实现前后景的分别显示，也能够有较好的立体感受。同样，可以利用立体显示器和平面显示器，实现更精确、更好的立体感受。

实施例四

如图6所示，本发明实施例的立体全景视频会议设备包括：深度信息获取装置601用于至少从两个视角同步获取同一会场的视频流；分层图像获取装置602用于根据每个视频流的深度信息从对应的视频流中获取多个深度层次的图像数据；立体全景视频流生成装置603用于对获取的不同视角的视频流进行基于深度信息的拼接，生成立体全景视频流；视频图像显示装置604用于根据终端显示器的类别，将所述立体全景视频流的视频图像显示在终端显示器上。

如图7A所示，深度摄像机(701，702，703，704)与立体全景视频会议设备600相连接，深度信息获取装置601接收从四个视角同步获取的同一会场的视频流；分层图像获取装置602根据每个视频流的深度信息从对应的视频流中获取多个深度层次的图像数据；立体全景视频流生成装置603对获取的不同视角的视频流进行基于视频图像深度信息的拼接，获得拼接立体视频序列，对所述的拼接立体视频序列进行立体视频编码，生成传输立体全景视频流。视频图像显示装置604用于根据终端显示器的类别，将所述立体全景视频流的视频图像显示在终端显示器上。

立体全景视频会议设备600还包括手势指令存储装置705用于存储手势信息与显示控制指令的映射关系；显示指令获取装置706用于根据获取的手势信息从所述的映射关系中获取对应的显示控制指令；显示指令获取装置707用于根据获取的手势信息从所述的映射关系中获取对应的显示控制指令；显示器控制装置708用于根据获取的显示控制指令控制所述终端显示器的显示。

如图7B所示，视频图像显示装置604包括：显示器类别确定单元6041和显示器6042，显示器6042包括：二维显示器或三维立体显示器或多层显示器；显示器类别确定单元6041确定所述的终端显示器是二维、三维或多维显示器后，如果显示器6042是二维显示器，则显示合成视频图像的二维图像信息；如果显示器6042是三维立体显示器，则显示合成视频图像的三维立体图像信息；如果显示器6042是多层显示器，则显示合成视频图像的多个深度层次的图像信息。

如图11所示，本发明实施例的快速视频拼接方法流程如下：

步骤S111、预先通过两台或多台摄像机拍摄会议场景背景，拼接该无人会场背景图，预存该全景图和会议背景图；

步骤S112、输入两个或多个视频流，拼接初始帧第一图和第二图；

步骤S113、检测当前帧第一图相对上一帧的变化区域；

步骤S114、变化区域是否过大？

步骤S115、若变化区域过大，则进行完整的全景图拼接；步骤S117再读取下一帧；步骤S116、若不过大，则进行变化区域的前景图像拼接；步骤S116、更新上一帧对应区域的拼接图，加入背景全景图；步骤S117再读取下一帧；

步骤S118、判断是否是最后一帧？

步骤S119、若是最后一帧，则结束；若不是最后一帧转至步骤S113。

对全景拼接图进行立体编码并输出。对终端显示类别进行判断，如果终端显示设备是二维显示器，则显示合成视频图像的二维图像信息；如果终端显示设备是三维立体显示器，则显示合成视频图像的三维立体图像信息；如果终端显示设备是多层显示器，则显示合成视频图像的多个深度层次的图像信息。

本发明实施例的有益效果在于，可以向用户提供全景的、高分辨率的、无缝的、三维立体的会议体验。解决了在多视点视频拼接时，出现的由于视差带来的重影问题，特别是对于近景视差较为明显的场景。提供了一种针对不同显示设备的多显示方式。可以利用多层显示器，实现前后景的分别显示，也能够有较好的立体感受。同样，可以利用立体显示器和平面显示器，实现更精确、更好的立体感受。并且提供了一种更为友好的数据协作方式，可以实现不同会场不同人员发出的手势指令，产生作用显示在同一个显示设备上，实现不同会场不同人员有同一会场地点同时控制数据、及会议系统的感受。

本实施例利用了深度摄像机，使得视讯或网真会议系统的远程终端数据协作、会议控制变得更加方便快捷。由于深度摄像机的存在，可根据深度摄像机识别出手、手指、手心。进而识别出手所发出的指令。

手势识别所采取的步骤如下：

步骤1、不同会场参与人员发出手势指令，并由深度摄像机做出指令判定；

步骤2、指令示意的驱动作用显示在远程终端设备上。这里所呈现的一种应用场景就是：如图12所示的基于深度摄像机构成的多会场2D/3D/Mulit-Layer多视点视频会议系统。

如图11所示，把会场B、C、D、E中的数据同时显示到会场A的显示数据的显示器中。

会场B可以通过手势来控制其数据内容显示方式，同样C、D、E也可以通过手势来控制各自的数据内容显示方式。

会场A中的人通过手势控制会场C的数据显示内容，看自己想看的内容。

在这里，可以合理定义一些远程控制数据显示方式的手势，来友好的进行不同会场间的会议数据内容控制与显示。例如：会场B控制其数据在会场A的显示，手势可以定义为一些常见的在本地会场应用中的手势模型；

会场A中的人通过手势控制会场C的数据显示内容，看自己想看内容，则，手势与显示控制指令的映射关系可以定义为：

如图13所示，竖起一个食指表示显示第一个会场的数据，并将控制焦点放到第一个会场数据。如图14所示，竖起食指和中指，表示显示第二个会场数据，并将焦点放到第一个会场数据。

依此类推，竖起中指、无名指、小拇指表示显示第三个会场数据，并将焦点放到第三个会场数据；竖起除大拇指外手指，表示显示第四个会场数据，并将焦点放到第四个会场数据；固定大拇指，其他手指旋转，表示轮流显示第五个、第六个......会场数据，焦点定位到随旋转停止时定位的会场数据；手掌伸开，垂直手臂，拉回胸前，表示满屏幕显示焦点会场数据。

这样，可以通过存储手势信息与显示控制指令的映射关系；根据深度摄像机对会场内人的手势进行摄像而并生成手势信息，从手势信息与显示控制指令的映射关系中获取对应的显示控制指令；并根据获取的显示控制指令控制所述终端显示设备的显示。如果终端显示设备是2D显示器，则显示合成视频图像的二维图像信息；如果所述的终端显示设备是3D立体显示器，则显示合成视频图像的三维立体图像信息；如果所述的终端显示设备是多层显示器，则显示多个深度层次的图像信息。

本发明实施例能够向用户提供全景的、高分辨率的、无缝的、三维立体的会议体验。能够获得比传统网真更高级的、真实的感受。解决了在多视点视频拼接时，出现由于视差带来的重影问题，特别是对于近景视差较为明显的场景。提供了一种快速、实时的视频拼接方法。可以降低视频拼接的复杂度，提高视频拼接的效率。同时还提供了一种针对不同显示设备的多显示方式。我们可以利用多层显示器，实现前后景的分别显示，也能够有较好的立体感受。同样，可以利用立体显示器，实现更精确、更好的立体感受。也提供了一种更为友好的数据协作方式。可以实现不同会场不同人员发出的手势指令，产生作用显示在同一个显示设备上，实现不同会场不同人员有同一会场地点同时控制数据、会议系统的感受。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种立体全景视频流生成方法，其特征是，所述的方法包括：

获取至少两个视频图像的深度信息；

根据每个视频图像的深度信息从对应的视频图像中获取多个深度层次的图像数据；

根据获取的多个深度层次的图像数据进行视频图像数据间的拼接，生成立体全景视频流；所述的根据获取的多个深度层次的图像数据进行视频图像数据间的拼接包括：对相同深度层次的图像数据进行视频图像数据间的拼接；所述的对相同深度层次的图像数据进行拼接包括：检测每个视频流当前帧中每个深度层次的图像数据相对上一帧对应深度层次图像数据的图像变化区域，确定所述的变化区域大于设定的阈值后，则仅对所述变化区域的图像数据进行拼接。

2.根据权利要求1所述的方法，其特征是，所述的获取至少两个视频图像的深度信息是指：由至少两个深度摄像机获取视频流，并从每个视频流中同步获取每帧视频图像的深度信息。

3.根据权利要求1所述的方法，其特征是，所述的根据获取的多个深度层次的图像数据进行视频图像数据间的拼接包括：对不同深度层次的图像数据进行视频图像数据间的拼接。

4.一种立体全景视频流生成设备，其特征是，所述的设备包括：

深度信息获取装置，用于获取至少两个视频图像的深度信息；

分层图像获取装置，用于根据每个视频图像的深度信息从对应的视频图像中获取多个深度层次的图像数据；

立体全景视频流生成装置，用于根据获取的多个深度层次的图像数据进行视频图像数据间的拼接，生成立体全景视频流；所述的立体全景视频流生成装置包括：图像拼接单元，用于对相同深度层次的图像数据进行视频图像数据间的拼接；图像检测单元，用于检测每个视频流当前帧中每个深度层次的图像数据相对上一帧对应深度层次图像数据的图像变化区域，确定所述的变化区域大于设定的阈值后输出图像拼接指令；所述的图像拼接单元根据所述的图像拼接指令对所述变化区域的图像数据进行图像数据间的拼接。

5.根据权利要求4所述的设备，其特征是，所述的深度信息获取装置包括：至少两个深度摄像机；所述的深度摄像机从摄取的视频流中同步获取每帧视频图像的深度信息。

6.根据权利要求4所述的设备，其特征是，所述的图像拼接单元，还用于对不同深度层次的图像数据进行视频图像数据间的拼接。