CN106303289B

CN106303289B - 一种将真实对象与虚拟场景融合显示的方法、装置及系统

Info

Publication number: CN106303289B
Application number: CN201510307280.5A
Authority: CN
Inventors: 郑远; 冯皓; 林鎏娟; 林剑宇; 刘灵辉
Original assignee: Fujian Kaimi Network Science & Technology Co ltd
Current assignee: Fujian Kaimi Network Science & Technology Co ltd
Priority date: 2015-06-05
Filing date: 2015-06-05
Publication date: 2020-09-04
Anticipated expiration: 2035-06-05
Also published as: CN106303289A

Abstract

本发明涉及将真实对象与虚拟场景融合显示的方法、装置及系统，所述方法包括：实时获取摄像头采集的图像；提取图像中的对象；将对象实时更新到虚拟场景中，得到更新后的画面。本发明利用嵌入式设备自带的GPU进行抠图处理操作，不占用CPU时间，提高系统速度，同时，本发明利用嵌入式设备中的处理器对人像与虚拟场景合成的画面进行编码得到视频数据，通过编码处理，大大降低视频数据的大小，便于视频数据流畅地进行网络传输，在其他客户端上进行流畅的实时显示。

Description

一种将真实对象与虚拟场景融合显示的方法、装置及系统

技术领域

本发明涉及多媒体技术领域，尤其涉及一种将真实对象与虚拟场景融合显示的方法、装置及系统。

背景技术

虚拟场景合成技术当前已广泛应用于电视台演播厅录播节目或电影制作中，例如天气预报节目等。虚拟场景合成技术是将摄像机采集到的纯色背景中的人像提取出来，与渲染出来的虚拟场景背景进行叠加合成，再将合成后的画面输出的一种技术。这种技术目前均是以PC电脑为平台实现，还需要配备专业摄像机采集视频输入给PC，所有设备整合后出售，设备较多且价格高昂，一般只有专业场合才会使用，例如电视台演播厅。

嵌入式系统是指嵌入到对象系统中的专用计算机应用系统，广泛应用于手机、机顶盒、GPS等手持或微型设备中，而嵌入式应用是指基于嵌入式操作系统的应用程序。随着现代嵌入式产品需要的高速发展，嵌入式应用开发愈发普遍。基于成本或功耗等考虑，通常这类产品的硬件性能一般不高。

同时，目前虚拟场景合成技术在实效性上存在很大的缺陷，特别是无法通过嵌入式系统进行实时虚拟场景合成。采用PC系统实现虚拟场景合成技术中，采用CPU进行读取摄像头获取的视频，并进行人像提取等处理。因嵌入式系统硬件性能低于PC设备，若在嵌入式方案中，也让CPU进行上述人像提取处理，CPU负担太重，无法在显示终端进行流畅的实时显示。

发明内容

本发明实施例所要解决的技术问题在于，提供一种一种将真实对象与虚拟场景融合显示的的嵌入式方案，该方案可以利用嵌入式设备所包含的摄像头、GPU、编解码模块等功能，通过网络传输，实现真实对象与虚拟场景的实时合成和显示，并能被外部设备分享的效果。

为了解决上述技术问题，本发明提供一种将真实对象与虚拟场景融合显示的方法，其包括：

实时获取摄像头采集的图像；

提取图像中的对象；

将对象实时更新到虚拟场景中，得到更新后的画面。

进一步，将更新后的画面在显示终端上实时更新显示。

本发明所述的将真实对象与虚拟场景融合显示的方法，还包括：

将更新后的画面编码得到视频数据；

实时获取音频数据；

将音频数据和视频数据进行封装，得到音视频数据。

进一步，在得到音视频数据后，还包括：客户端获取音视频数据并进行播放。

进一步，所述“客户端获取音视频数据并进行播放”具体为：客户端通过实时流传输协议获取音视频数据，并对音视频数据中的视频数据解码显示画面，音频数据解码后通过音频播放设备播放。

进一步，所述提取图像中的对象具体步骤为：GPU将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景。

进一步，在“实时获取摄像头采集的图像”步骤前还包括：同步实时获取音频数据通过音频输出设备进行播放；所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音。

进一步，所述获取音频数据后，将音频数据编码成便于网络传输的音频格式的音频数据；所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音。

进一步，所述“提取图像中的对象”步骤中，所述对象为人像。

进一步，所述将音频数据和视频数据进行封装，得到音视频数据后，还包括步骤：将音视频数据进行保存，并上传至网关服务器，网关服务器将接收的音视频数据上传至云端服务器，云端服务器接收音视频数据并生成分享地址。

本发明还提供一种将真实对象与虚拟场景融合显示的装置，包括：

图像获取单元：用于实时获取摄像头采集的图像；

对象提取单元：用于提取图像中的对象；

画面更新单元：用于将对象实时更新到虚拟场景中，得到更新后的画面。

本发明所述的将真实对象与虚拟场景融合显示的装置，其还包括：画面显示单元：用于将更新后的画面在显示终端上实时更新显示。

本发明所述的将真实对象与虚拟场景融合显示的装置，其还包括：

编码单元：用于将更新后的画面编码得到视频数据；

音频获取单元：用于实时获取音频数据；

音视频封装单元：用于将音频数据和视频数据进行封装，得到音视频数据。

播放单元：用于客户端获取音视频数据并进行播放。

进一步，所述对象提取单元具体为：用于通过GPU将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景。

本发明所述的将真实对象与虚拟场景融合显示的装置，其还包括分享单元，用于将音视频数据进行保存，并上传至网关服务器，网关服务器将接收的音视频数据上传至云端服务器，云端服务器接收音视频数据并生成分享地址。

本发明还提供一种将真实对象与虚拟场景融合显示的嵌入式设备，包括：摄像头、GPU和处理器；

所述摄像头用于实时采集图像；

GPU用于提取图像中的对象；

处理器用于将对象实时更新到虚拟场景中，得到更新后的画面；将更新后的画面在显示终端上实时更新显示。

进一步，所述处理器还用于：将画面编码得到视频数据；获取音频数据；将音频数据和视频数据进行封装，得到音视频数据。

进一步，所述“GPU用于提取图像中的对象”具体操作为：将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景。

本发明还提供一种基于虚拟场景合成视频的嵌入式系统，包括权利要求17-19任一项的嵌入式设备，及

音效器：实时获取音频数据，并将音频数据编码成便于网络传输的音频格式的音频数据后，发送给嵌入式设备；所述音频数据为演唱者演唱的声音，或为演唱者演唱的声音及歌曲伴奏的混合声音；

客户端：获取嵌入式设备发送的封装的音视频数据并进行实时播放；

显示终端：实时显示更新后的画面；

网关服务器：接收嵌入式设备发送的音视频数据；

云端服务器：接收网关服务器发送的音视频数据，并进行保存和生成分享地址。

本发明是采用嵌入式方案，利用嵌入式设备所包含的功能：摄像头、GPU、编码单元，实现了真实对象与虚拟场景的合成，并统一了输出接口和输出格式，大大降低了设备的成本，方便使用。利用嵌入式设备中安装的系统(如Android、IOS等系统)支持摄像头的特性，在嵌入式设备上实现画面采集，画面采集后通过GPU运算实时提取出前景对象(主要为人像)，再和虚拟场景实时合成，将合成后的画面经过嵌入式设备进行编码后，通过网络传输，实现人像与虚拟场景在客户端的实时显示。

本发明的方案实现的优点在于：

1.利用嵌入式设备自带的GPU进行抠图处理操作，不占用CPU时间，提高系统速度；并且由于GPU是专门对图像进行处理的硬件，对不同大小的像素运算时间一样，例如，8位、16位、32位的像素运算时间均一样，可大大节省了对像素的运算时间；而普通的CPU会随像素的大小的增大延长处理时间；所以本发明的人像提前速度大大提高；上述的区别点也是本发明嵌入式方案能实现流畅显示的关键点，因为嵌入式方案的CPU性能一般差于PC方案中的CPU性能，在PC方案中，CPU需进行读取摄像头获取的视频，并进行抠图等处理。若在嵌入式方案中，也让CPU进行上述处理，CPU负担太重，无法进行流畅的显示。而在本发明的嵌入式方案中，将上述抠图处理放入GPU中进行，既减轻了CPU的负担，同时不会对GPU的运行造成影响。

2、利用嵌入式设备的处理器对人像与虚拟场景合成的画面进行编码得到视频数据，通过编码处理，大大降低视频数据的大小，便于视频数据流畅地进行网络传输，在其他客户端上进行流畅的实时显示。

3、采用嵌入式设备(如Android系统或者IOS系统)所自带的摄像头、GPU、处理器等部件，即可实现本发明上述的目的，相对PC方案而已，大大降低了达到同等效果的设备成本。

4.基于纯色(蓝色/绿色)背景抠图算法，实现了对象提取，在虚拟场景中显示，达到了将真实对象与虚拟场景的结合，实现了对象(演唱者)在虚拟场景上演唱的效果。

附图说明

图1是本发明实施例一种将真实对象与虚拟场景融合显示的方法的流程示意图；

图2是本发明实施例二一种将真实对象与虚拟场景融合显示的装置的结构示意图；

图3为本发明实施例三一种将真实对象与虚拟场景融合显示的嵌入式设备的结构示意图；

图4为本发明实施例四一种将真实对象与虚拟场景融合显示的嵌入式系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供一种将真实对象与虚拟场景融合显示的方法，其包括：

S100：实时获取摄像头采集的图像；

S200：提取图像中的对象；所述对象可为人像；

S300：将对象实时更新到虚拟场景中，得到更新后的画面。

本发明通过上述方案，实现对象与虚拟场景的实时合成。本发明中，所述虚拟场景包括3D虚拟舞台、3D虚拟现实场景或3D视频等。

3D虚拟舞台是3D虚拟现实场景中的特例情况，通过计算机技术模拟现实舞台，实现一种立体感、真实感强的舞台效果。

3D虚拟现实场景技术是一种可以创建和体验虚拟世界的计算机仿真系统，它利用计算机生成一种现实场景的3D模拟场景，是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真。虚拟场景包括任何现实生活中存在的实际场景，包含视觉、听觉等任何能通过体感感受到的景象，通过计算机技术来模拟实现。

3D视频为：拍摄影像时，用两台摄影机模拟左右两眼视差，分别拍摄两条影片，然后将这两条影片同时放映到银幕上，放映时让观众左眼只能看到左眼图像，右眼只能看到右眼图像。最后两幅图像经过大脑叠合后，就能看到具有立体纵深感的画面，即为3D视频。

所述提取图像中的对象具体步骤为：GPU将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景。

由于背景为纯色，所以本发明采用色度键法进行抠图。其中预设的阈值为背景颜色的颜色值，例如，背景颜色为绿色，则预设的像素点RGB颜色值的阈值为(0±10、255-10、0±10)。背景色优选为绿色或蓝色，在数字视听场所可同时设置两种颜色的背景，供用户选择。当用户穿与绿色反差较大的衣服唱歌时，可选用绿色的背景。在对象(人像)提取过程中，由于用户穿的衣服与背景色相差较大，所以图像中的每个像素的颜色值与预设的阈值进行比较后，背景部分像素点的颜色值在预设的阈值内，将背景部分像素点的Alpha通道设为零，即将背景显示为透明色；而人像部分的像素点不在预设的阈值内，保留人像部分，从而实现将人像从图像中提取出来。

在本发明中，利用嵌入式设备自带的GPU进行抠图处理操作，不占用CPU时间，提高系统速度；并且由于GPU是专门对图像进行处理的硬件，对不同大小的像素运算时间一样，例如，8位、16位、32位的像素运算时间均一样，可大大节省了对像素的运算时间；而普通的CPU会随像素大小的增大延长处理时间；所以本发明的人像提前速度大大提高；上述的区别点也是本发明嵌入式方案能实现流畅显示的关键点，因为嵌入式方案的CPU性能一般差于PC方案中的CPU性能，在PC方案中，CPU需进行读取摄像头获取的视频，并进行抠图等处理。若在嵌入式方案中，也让CPU进行上述处理，CPU负担太重，无法进行流畅的显示。而在本发明的嵌入式方案中，将上述抠图处理放入GPU中进行，既减轻了CPU的负担，同时不会对GPU的运行造成影响。

本发明所述的将真实对象与虚拟场景融合显示的方法，其还包括：

S400：将更新后的画面在显示终端上实时更新显示。

通过在显示终端上的更新显示，用户可看到对象与虚拟场景合成后的视频。

S500：将更新后的画面编码得到视频数据；

S600：实时获取音频数据；

S700：将音频数据和视频数据进行封装，得到音视频数据。

步骤S500中，对更新后的画面进行编码，本发明实现音视频数据在客户端实时流畅显示的关键步骤。在现有技术中，一般不对原始画面进行处理，原始画面数据量大，所以现有技术还未出现对人像和虚拟场景合成后的画面，实时在客户端显示的技术。而本发明将更新后的画面先进行编码，经过编码操作可大大减小画面大小。

例如：在分辨率为720P的情况下，1帧视频的大小为1.31MByte，1秒视频为30帧画面，所以，现有视频中，1秒视频的大小为：30*1.31＝39.3MByte；

本发明对画面进行编码后，还是在分辨率为720P下，设码率为4Mbit，1秒的视频的大小为4Mbit，由于1Byte＝8bit，所以1秒的视频为0.5MByte；与现有视频相比，编码后的视频数据大大减小，从而编码后的视频数据可流畅地在网络上进行传输，实现在客户端流畅显示音视频数据。

本发明在得到音视频数据后，还包括步骤S800：客户端获取音视频数据并进行播放。所述“客户端获取音视频数据并进行播放”具体为：客户端通过实时流传输协议获取音视频数据，并对音视频数据中的视频数据解码显示画面，所述画面内容可为3D场景渲染的画面；音频数据解码后通过音频播放设备(例如扬声器)播放。所述实时流传输协议可以是RTSP协议。通过步骤S500的编码操作，在本步骤中，可实现客户端流畅播放视频数据。

本发明在“实时获取摄像头采集的图像”步骤前还包括：S001：同步实时获取音频数据通过音频输出设备进行播放。所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音。通过实时播放用户演唱的声音和歌曲伴奏，同时，在显示终端实时显示更新后的画面。这样，不仅可听到自己演唱声音，还可以在显示终端看到与演唱声音同步的画面(人像与虚拟场景的结合)，实现了虚拟舞台的效果。

本发明中，所述步骤S600获取音频数据后，将音频数据编码成便于网络传输的音频格式的音频数据，从而便于音频数据的网络传输；所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音。

本发明步骤S700所述将音频数据和视频数据进行封装，得到音视频数据后，还包括步骤S800：将音视频数据进行保存，并上传至网关服务器，网关服务器将接收的音视频数据上传至云端服务器，云端服务器接收音视频数据并生成分享地址。通过上述步骤，实现了音视频数据的分享。在通过终端设备(例如手机、电脑、平板等带显示屏的电子设备)登录分享地址，即可直接播放音视频数据或下载音视频数据。

实施例2

如图2所示，本发明还提供一种将真实对象与虚拟场景融合显示的装置，包括：

图像获取单元1：用于实时获取摄像头采集的图像；

对象提取单元2：用于提取图像中的对象；

画面更新单元3：用于将对象实时更新到虚拟场景中，得到更新后的画面。

通过上述装置，实现对图像中对象的提取，及对象与虚拟场景的合成。

本发明所述的将真实对象与虚拟场景融合显示的装置，其还包括：画面显示单元4：用于将更新后的画面在显示终端上实时更新显示。通过画面显示单元4，可在显示终端观看到实时更新的画面。

本发明所述的将真实对象与虚拟场景融合显示的装置，其还包括：音频获取及播放单元01，用于同步实时获取音频数据通过音频输出设备进行播放。所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音。通过音频获取及播放单元01的操作，可在显示终端播放更新画面时，实时播放对应的演唱音频及伴音，实现虚拟舞台的效果。

编码单元5：用于将更新后的画面编码得到视频数据；

音频获取单元6：用于实时获取音频数据；

音视频封装单元7：用于将音频数据和视频数据进行封装，得到音视频数据。

播放单元8：用于客户端获取音视频数据并进行播放。

通过编码单元5，对画面进行编码后，视频数据的大大减少，便于后续网络传输。通过音视频封装单元7的封装操作，即可得到音视频数据。该音视频数据通过播放单元8进行播放，客户端可实时流畅地观看制作的虚拟舞台视频。

所述对象提取单元2具体为：用于通过GPU将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景。

本发明所述的将真实对象与虚拟场景融合显示的装置，其还包括分享单元9，用于将音视频数据进行保存，并上传至网关服务器，网关服务器将接收的音视频数据上传至云端服务器，云端服务器接收音视频数据并生成分享地址。通过分享单元9，实现了音视频数据的分享。在通过终端设备(例如手机、电脑、平板等带显示屏的电子设备)登录分享地址，即可直接播放音视频数据或下载音视频数据。

实施例3

如图3所示，本发明还提供一种将真实对象与虚拟场景融合显示的嵌入式设备10，包括：摄像头20、GPU 30和处理器40；

所述摄像头20用于实时采集图像；

GPU 30用于提取图像中的对象；

处理器40用于将对象实时更新到虚拟场景中，得到更新后的画面；将更新后的画面在显示终端上实时更新显示。

所述处理器40还用于：将画面编码得到视频数据；获取音频数据；将音频数据和视频数据进行封装，得到音视频数据。

本发明的嵌入式设备可安装安卓操作系统，用安卓系统的图像处理功能，对画面进行编码，对音频数据和视频数据进行封装，从而大大减少了设备的成本。

本发明的嵌入式设备中，由GPU对图像中的对象进行提取，从而减轻处理器的负担，又不影响GPU的工作，这样不仅保证可在嵌入式设备中实现人像与虚拟场景的合成，还可实现合成编码后视频文件的实时流畅传输。

所述“GPU 30用于提取图像中的对象”具体操作为：将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景。

实施例4

如图4所示，本发明还提供一种基于虚拟场景合成视频的嵌入式系统，包括嵌入式设备10，及

音效器50：实时获取音频数据，并将音频数据编码成便于网络传输的音频格式的音频数据后，发送给嵌入式设备；所述音频数据为演唱者演唱的声音，或为演唱者演唱的声音及歌曲伴奏的混合声音；

客户端60：获取嵌入式设备发送的封装的音视频数据并进行实时播放；

显示终端70：实时显示更新后的画面；

网关服务器80：接收嵌入式设备发送的音视频数据；

云端服务器90：接收网关服务器发送的音视频数据，并进行保存和生成分享地址。

Claims

1.一种将真实对象与虚拟场景融合显示的方法，其特征在于，包括：

实时获取音频数据通过音频输出设备进行播放；所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音；

同步实时获取摄像头采集的图像；

提取图像中的对象；所述对象为人像；

将对象实时更新到虚拟场景中，得到更新后的画面；所述虚拟场景包括3D虚拟舞台、3D虚拟现实场景或3D视频；

将更新后的画面编码得到视频数据；

所述提取图像中的对象，具体步骤为：GPU将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景；

还包括：将更新后的画面在显示终端上实时更新显示。

2.根据权利要求1所述的方法，其特征在于，还包括：

实时获取音频数据；

将音频数据和视频数据进行封装，得到音视频数据。

3.根据权利要求2所述的方法，其特征在于，还包括：

客户端获取音视频数据并进行播放。

4.如权利要求3所述的方法，其特征在于，所述“客户端获取音视频数据并进行播放”具体为：客户端通过实时流传输协议获取音视频数据，并对音视频数据中的视频数据解码显示画面，音频数据解码后通过音频播放设备播放。

5.如权利要求3所述的方法，其特征在于，所述获取音频数据后，将音频数据编码成便于网络传输的音频格式的音频数据。

6.如权利要求2所述的方法，其特征在于，所述将音频数据和视频数据进行封装，得到音视频数据后，还包括步骤：将音视频数据进行保存，并上传至网关服务器，网关服务器将接收的音视频数据上传至云端服务器，云端服务器接收音视频数据并生成分享地址。

7.一种将真实对象与虚拟场景融合显示的装置，其特征在于，包括：

音频获取及播放单元：用于同步实时获取音频数据通过音频输出设备进行播放；所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音；

图像获取单元：用于实时获取摄像头采集的图像；

对象提取单元：用于提取图像中的对象；所述对象为人像；

画面更新单元：用于将对象实时更新到虚拟场景中，得到更新后的画面；所述虚拟场景包括3D虚拟舞台、3D虚拟现实场景或3D视频；

编码单元：用于将更新后的画面编码得到视频数据；

所述对象提取单元具体为：

用于通过GPU将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景；

还包括：

画面显示单元：用于将更新后的画面在显示终端上实时更新显示。

8.根据权利要求7所述的装置，其特征在于，其还包括：

音频获取单元：用于实时获取音频数据；

9.根据权利要求7所述的装置，其特征在于，其还包括：

播放单元：用于客户端获取音视频数据并进行播放。

10.根据权利要求7所述的装置，其特征在于，其还包括分享单元，用于将音视频数据进行保存，并上传至网关服务器，网关服务器将接收的音视频数据上传至云端服务器，云端服务器接收音视频数据并生成分享地址。

11.一种将真实对象与虚拟场景融合显示的嵌入式设备，其特征在于，包括：

摄像头、GPU和处理器；

所述摄像头用于实时采集图像；

GPU用于提取图像中的对象；所述对象为人像；

处理器用于同步实时获取音频数据通过音频输出设备进行播放；所述音频数据为演唱者演唱的声音，或演唱者演唱的声音及歌曲伴奏的混合声音；

所述处理器还用于将对象实时更新到虚拟场景中，得到更新后的画面；将更新后的画面在显示终端上实时更新显示；所述虚拟场景包括3D虚拟舞台、3D虚拟现实场景或3D视频；

所述处理器还用于将画面编码得到视频数据；

所述“GPU用于提取图像中的对象”具体操作为：将图像中的每个像素的颜色值与预设的阈值做比较；若像素的颜色值在预设的阈值内，则将该像素点的Alpha通道设为零，即将背景显示为透明色，提取出对象，所述背景为纯色背景。

12.根据权利要求11所述的嵌入式设备，其特征在于，所述处理器还用于：

获取音频数据；将音频数据和视频数据进行封装，得到音视频数据。

13.一种基于虚拟场景合成视频的嵌入式系统，其特征在于：包括权利要求11-12任一项的嵌入式设备，及音效器：实时获取音频数据，并将音频数据编码成便于网络传输的音频格式的音频数据后，发送给嵌入式设备；所述音频数据为演唱者演唱的声音，或为演唱者演唱的声音及歌曲伴奏的混合声音；

显示终端：实时显示更新后的画面；

网关服务器：接收嵌入式设备发送的音视频数据；