CN102521865A

CN102521865A - 视频场景仿真方法、装置及系统

Info

Publication number: CN102521865A
Application number: CN2011104371492A
Authority: CN
Inventors: 刘观发; 肖俊林
Original assignee: Vtron Technologies Ltd
Current assignee: Vtron Technologies Ltd
Priority date: 2011-12-23
Filing date: 2011-12-23
Publication date: 2012-06-27

Abstract

本发明公开了一种视频场景仿真方法、装置及系统。该方法包括：通过人体动作感应技术获取异地的参与者的人形信息，发送给本地；在本地的终端上根据所述人形信息获取人体的三维形状及平面图像，将所述平面图像作为皮肤覆盖到所述三维形状构造人形模型，再将该人形模型融合进预设的仿真场景。采用本发明，可以通过人形捕捉技术来捕捉人形，把除人形之外的场景剔除，只需将人形图像传输出去，将大大减少网络流量，降低误码率，提高反应速度。再利用本地预设的仿真场景，在本地终端上将传来的人形图像与事先准备好的仿真场景无缝融合，从而在本地终端上制造出逼真的视频仿真会议场景。

Description

视频场景仿真方法、装置及系统

技术领域

本发明涉及视频通信技术，尤其涉及视频场景仿真方法、装置及系统。

背景技术

视频会议场景仿真方法是指为了实现更加流畅的画面及逼真的效果而提供的一种会议现场模拟技术。

目前视频会议场景实现技术：

①技术一、通过高清摄像头直接捕捉会议场景传输到终端，分会场都有自己的会议场景，如果想看到两个以上的分会场，就是简单的把两个分会场的画面拼接在一起，毫无美感可言，同时传输大面积且无多少实际用处的真实会议场景还要消耗大量网络流量，从而误码率居高不下，反应速度也慢；

②技术二、采用技术一的同时使用软件技术把事先由美工设计好的几张会议场景图作为背景，把从各个终端捕获的图像组合起来拼接成一个大的会议场景，这个方法同样保留了技术一的缺点，同时由于各个终端捕获的图像是一个矩形的，也就无法和背景很好的融合，造成视觉上的不和谐。

当前视频系统大多是直接把整帧图像通过网络传输出去后到了终端再简单拼接显示，无法将不同会场的参与者融合到一个会议场景。

发明内容

为了解决上述技术问题，本发明提供了视频场景仿真方法、装置及系统，能够实现快速准确地将不同场景参与者融合到一个场景当中。

本发明提供了视频场景仿真方法，包括：

通过人体动作感应技术获取异地的参与者的人形信息，发送给本地；

在本地的终端上根据所述人形信息获取人体的三维形状及平面图像，将所述平面图像作为皮肤覆盖到所述三维形状构造人形模型，再将该人形模型融合进预设的仿真场景。

相应地，本发明还提供了视频场景仿真装置，包括：

人形捕捉单元，用于通过人体动作感应技术获取参与者的人形信息；

与所述人形捕捉单元相连的信息发送单元，用于发送所述人形信息；

与所述信息发送单元相对应的信息接收单元，用于接收所述人形信息；

与所述信息接收单元相连的模型转换单元，用于根据所述人形信息获取人体的三维形状及平面图像，将所述平面图像作为皮肤覆盖到所述三维形状构造人形模型；

与所述模型转换单元相连的场景融合单元，用于将该人形模型融合进预设的仿真场景。

相应地，本发明还提供了一种视频场景仿真系统，包括至少一个异地场景终端，与异场景终端通过互联网相连的至少一个本地场景终端，其中，

所述异地场景终端包括如前所述的人形捕捉单元和信息发送单元；

所述本地场景终端包括如前所述的信息接收单元和场景融合单元。

实施本发明，具有如下有益效果：

本发明通过人形捕捉技术来捕捉人形，把除人形之外的场景剔除，只需将人形图像传输出去，将大大减少网络流量，降低误码率，提高反应速度。再利用3D引擎技术用来布置仿真场景，在本地终端上将传来的人形图像与事先准备好的3D仿真场景无缝融合，从而在终端上制造出逼真的3D视频仿真场景。鉴于此，本发明快速准确地将不同场景参与者融合到一个场景当中。

附图说明

图1是本发明视频场景仿真方法的流程图；

图2是本发明视频场景仿真方法的实施例流程图；

图3是本发明视频场景仿真装置的示意图；

图4是本发明视频场景仿真装置的实施例示意图；

图5是本发明视频场景仿真系统的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

图1是本发明视频场景仿真方法的流程图，包括：

S101：通过人体动作感应技术获取异地的参与者的人形信息，发送给本地；

S102：在本地的终端上根据所述人形信息获取人体的三维形状及平面图像，将所述平面图像作为皮肤覆盖到所述三维形状构造人形模型；

S103：将该人形模型融合进预设的仿真场景。

本发明采用基于人形捕捉及虚拟仿真技术来实现视频场景仿真来解决占用带宽大，误码率高，反应速度慢，不同会场、参与者无法融合到一个场景等问题。具体地，通过人形捕捉技术，剔除了除参与者之外的图像数据，使网络只需负担传输人形图像信息，从而极大的降低了网络负担，降低误码率，提高反应速度，使不同会场、参与者可以仿真融合到一个场景。通过虚拟仿真技术，优选地，使用人体动作感应技术捕捉人的完整形态特征，再把数据送到本地，然后在本地通过3D引擎计算出这个人体的三维形状,并将每帧图像捕捉到人体平面图像作为皮肤覆盖到该三维形状上，构造出3D人形模型。最后，将该3D人形模型与预设的3D仿真场景模型相融合，就能展现真实性。人形动作感应和3D引擎融合这两个运算量比较大的模块放到服务器上，减少终端的负载。从而逼真地仿真场景只需从分会场的本地终端服务器取得，无需网络传输，所以画面效果极佳。进一步地，根据人体动作感应技术，可以确定人的动作形态特征，计算出人是坐着还是站着等类似的姿势，此时，由于结合了3D引擎技术，故此可以使用3D引擎系统自带的道具，比如将一个椅子的3D模型放置到坐姿人体下的适当位置，达到逼真的效果。

图2是本发明视频场景仿真方法的实施例流程图。与图1相比，图2是本发明列举的实施例的流程图。

S201：把异地的场景保持和参与者不同的背景颜色，通过图像识别算法将背景剔除，留下人形部分的信息发送给本地。

S202：在本地的终端上根据所述人形信息获取人体的三维形状及平面图像，将所述平面图像作为皮肤覆盖到所述三维形状构造人形模型。

S203：将该人形模型融合进利用3D引擎技术来布置的3D仿真场景。

S204：在所述仿真场景中加入动画。

与现有技术相比，现有的视频系统大多是直接把整帧图像通过网络传输出去后到了终端再简单拼接显示，无法将不同会场的参与者融合到一个场景。本发明正是基于上述存在的缺点进行改进，通过人形捕捉技术来捕捉人形，把除人形之外的会议场景剔除，只需将人形图像传输出去，将大大减少网络流量，降低误码率，提高反应速度。再利用3D引擎技术用来布置会议仿真场景，在本地终端上将传来的人形图像与事先准备好的3D仿真场景无缝融合，从而在终端上制造出逼真的3D视频会议仿真会议场景。

其中，所用人形捕捉技术，目前一种方法是需要特制的会议场景才能捕捉到人形，把背景保持一致的颜色，比如都为蓝色，而与会者不可以穿蓝色衣服，这样采集到图像后就可以采用图像识别算法将蓝色背景剔除，留下人形这一小部分，通过人体动作感应技术获取人形信息编码后传输出去。随着技术的发展，可以预见将来通过图像处理技术可以剔除任何背景，而不局限于某种特定颜色的背景，这样开会就不需要布置特定的背景。本发明的保护范围还包括采用类似的背景剔除技术，以达到抽取人形信息，节省传输流量的技术效果。

另外，所用3D引擎技术，是采用当前流行的开发3D游戏所使用的引擎技术，终端可以事先由美工制作一些会议仿真场景比如圆桌会议场景，由于这些会议仿真场景是使用3D引擎技术，通过3D引擎构造出3D人形模型，而不是简单的平面拼图，所以看上去更加逼真和流畅。当把捕获的人形无缝嵌入到这些具备3D效果的会议场景中时，就可以开始体验逼真而绚丽的视频会议了。因为会议仿真场景事先存储在各终端了，所以每个终端都可以有自己特有的3D仿真场景，服务器只需往各个终端发送人形图像就可以了，这就极大的节省了网络流量，各个分会场也可以实现丰富的会议仿真场景选择，而不必千遍一律。

进一步地，由于本发明基于3D引擎技术的，所以在上面适当的加入一些动画，比如一个小动物在逗着玩之类的也是轻而易举，这样更能增加与会者的参与热情和兴趣而不致打瞌睡。所述动画还可以包括卡通人物、字幕及其它类似的动画效果。

图3是本发明视频场景仿真装置的示意图，包括：

图3与图1相对应，上述各个单元的运行方式与方法中的相同。

图4是本发明视频场景仿真装置的实施例示意图。与图3相比，图4是本发明实施例的示意图。

如图4所示，所述人形捕捉单元包括：

背景剔除单元，用于通过图像识别算法将采集到的和参与者图像颜色不同的异地与会场景的背景剔除。

如图4所示，所述场景融合单元，包括

3D引擎单元，用于利用3D引擎技术来布置3D仿真场景。

如图4所示，所述场景融合单元，还包括：

与所述3D引擎单元相连的动画单元，用于在所述仿真场景中加入动画。

图4与图2相对应，上述各个单元的运行方式与方法中的相同。

图5是本发明视频场景仿真系统的示意图，包括至少一个异地场景终端，与异地场景终端通过互联网相连的至少一个本地场景终端，其中，

本发明能够快速准确地将不同异地会场参与者融合到本地的一个场景当中。例如，可以应用于楼宇的监控系统当中，将不同的过道、服务台、大厅等监控画面传输到控制室的本地终端上，通过本地终端对各个异地场景进行画面重组和监测。又例如，可以应用于网上授课系统当中，将本地的讲师的人形信息通过互联网传输到各个异地课堂的异地终端上，课堂的异地终端将讲师的人形信息与预设的讲台场景相融合，若再加上一些动画元素充当助教，或者加上字幕，则可以帮助学习者提高学习兴趣和学习效率。

如图5所示的本发明视频场景仿真系统，其中，

所述异地场景终端还包括所述的信息接收单元和场景融合单元；

所述本地场景终端还包括所述的人形捕捉单元和信息发送单元。

进一步的，本发明还能够快速准确地将本地的人形信息发送到不同的异地会场当中，与异地会场的场景相融合。又例如，可以应用于现代视频会议商务系统，异地和本地的与会者相互交流，在逼真的会议场景当中拉近双方的距离。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种视频场景仿真方法，其特征在于，包括：

2.根据权利要求1所述的视频场景仿真方法，其特征在于，所述通过人体动作感应技术获取异地的参与者的人形信息的步骤，包括：

把异地的场景保持和参与者不同的背景颜色，通过图像识别算法将背景剔除，留下人形部分的信息。

3.根据权利要求1或2所述的视频场景仿真方法，其特征在于，所述预设的仿真场景，包括：

利用3D引擎技术来布置的3D仿真场景。

4.根据权利要求3所述的视频场景仿真方法，其特征在于，所述将该人形模型融合进预设的仿真场景的步骤之后，还包括：

在所述仿真场景中加入动画。

5.一种视频场景仿真装置，其特征在于，包括：

6.根据权利要求5所述的视频场景仿真装置，其特征在于，所述人形捕捉单元包括：

7.根据权利要求5或6所述的视频场景仿真装置，其特征在于，所述场景融合单元，包括：

3D引擎单元，用于利用3D引擎技术来布置3D仿真场景。

8.根据权利要求7所述的视频场景仿真装置，其特征在于，所述场景融合单元，还包括：

9.一种视频场景仿真系统，包括至少一个异地场景终端，与异地场景终端通过互联网相连的至少一个本地场景终端，其特征在于：

所述异地场景终端包括如权利要求5或6所述的人形捕捉单元和信息发送单元；

所述本地场景终端包括如权利要求7或8所述的信息接收单元和场景融合单元。

10.根据权利要求9所述的视频场景仿真系统，其特征在于：