CN114173021A

CN114173021A - 基于高清多屏的虚拟演播方法、系统

Info

Publication number: CN114173021A
Application number: CN202210132553.7A
Authority: CN
Inventors: 方力; 蒋济懋; 林家昕; 苏蕴韬; 叶龙
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-03-11
Anticipated expiration: 2042-02-14
Also published as: CN114173021B

Abstract

本发明提供一种基于高清多屏的虚拟演播方法，首先通过预设的画面采集设备进行全景采集以获取全景视频图像；通过虚幻引擎对全景视频图像进行预处理以形成背景视频图像，并使高清屏幕虚拟演播室播放展示背景视频图像；再通过摄像机拍摄高清屏幕虚拟演播室所播放展示的背景视频图像和处于高清屏幕虚拟演播室中的主持人前景以形成初始录制视频；而后基于预设的深度人像调和网络对初始录制视频进行调和处理以获取前后景协调一致的目标视频；如此提高临场感和便利性，解决虚拟演播室现场由于灯光等问题带来的前后景不融合的问题，使画面更加真实大大简化后期制作流程，并且提高视觉效果，提高观众的观看效果，给虚拟制片行业带来更多的可能性。

Description

基于高清多屏的虚拟演播方法、系统

技术领域

本发明涉及媒体演播领域，更为具体地，涉及一种基于高清多屏的虚拟演播方法、系统。

背景技术

虚拟演播室技术的出现与发展，极大地促进了电影电视行业的发展。虚拟演播室有很多种类型，比较常见的基于绿幕的虚拟演播室主要运用了色键抠图技术，CGI（computer-generated imagery）技术等相关技术进行制片；另外还有随着虚拟现实技术，实时渲染技术，动作捕捉技术等相关技术的发展进步而逐渐成为主流的基于高清多屏显示系统的虚拟演播室。基于高清多屏显示系统的新型虚拟演播室通过游戏引擎（如UnrealEngine 4）等软件的实时渲染技术对全景视频或CGI技术合成的虚拟影像进行处理，并投影到几块高清屏幕上，形成虚拟背景。主持人在这样的虚拟演播室中进行节目录制，可以达到身临其境的效果，现场的摄像机也会同时对前景人物和背景进行虚实结合拍摄。现有的新型虚拟演播室一般以CGI作为虚拟背景，该种虚拟背景视觉效果真实性较差；若使用全景视频作为虚拟背景，则会使视觉效果更真实。

高清多屏虚拟演播室大大节省了后期制作的时间，但是需要对拍摄的视频进行调和，使前景人物和背景融合得更自然。可以通过人像调和算法实现这一目的。由于前景人物并非在真实的背景下进行拍摄，因此会出现光照、色调等于背景不融合的问题，通过人像调和算法可以对前后景进行调整，使前景在视觉上与背景融合得更自然。目前，大多数调和算法，比如Jun Ling等提出的RainNet算法在进行调和时，需要未处理的图像和前景遮罩作为输入进行调和，这并不适用于在演播室中拍摄得到的前后景结合的视频。因此，本专利提出的虚拟演播室系统中包含了一个端到端的调和网络，不需要输入前景遮罩就可以进行调和。

专利CN109639933A提出了一种虚拟演播室360度全景节目制作的方法及系统，在绿幕或蓝幕与演播室灯光的环境下拍摄高清前景信号，经过抠像处理，将前景信号切入设计好的360度全景的虚拟三维场景下，实时合成渲染为全景视频。这样做虽然可以实时看到前后景结合的视频，但是由于虚拟场景一般由CGI技术合成，不适用于现场采访等内容。此外，在此专利提出的虚拟演播室中，主持人仍然是在绿幕或蓝幕中进行拍摄，只能通过想象来进行主持，临场感差。

另一现有技术提出的VR-PLATFORM CAVE系统是由3个面以上（含3面）硬质背投影墙组成的高度沉浸的虚拟演示环境，配合三维跟踪器，用户可以在被投影墙包围的系统近距离接触虚拟三维物体，或者随意漫游“真实”的虚拟环境。但是，这种CAVE系统是一种展示系统，并不进行拍摄，更没有合适的算法进行前后景调和。因此并不适用于虚拟演播室。

基于绿幕的虚拟演播室在单色背景（通常是蓝色或绿色）下拍摄人物和物体，合成一个虚拟背景会导致主持人临场感差等问题，随着计算机生成图像（CGI）的发展，LED屏幕等多种高清（HD）屏幕也可替代绿幕，实景和实时渲染的环境和可同时被摄像机捕捉，但逼真的模型造价昂贵，且该技术对于时间敏感的场景适用性弱，此外，为实现演播室现场灯光与虚拟环境相匹配，对虚拟演播室的照明要求也极高。

因此，亟需一种全景素材取材方便，无需CGI建模，系统操作简便，增加主持人临场感、避免了画面穿帮等演播事故，不需要辅助性的前景遮罩作为输入，可以只输入拍摄的图片，即可实现端到端的调和的基于高清多屏的虚拟演播方法、系统。

发明内容

鉴于上述问题，本发明的目的是提供一种基于高清多屏的虚拟演播方法，以解决现有技术主持人仍然是在绿幕或蓝幕中进行拍摄，只能通过想象来进行主持，临场感差；若采用电子显示屏作为背景所拍摄的视频影像无法调和；若以CGI作为虚拟背景，该种虚拟背景视觉效果真实性较差的问题。

本发明提供的一种基于高清多屏的虚拟演播方法，包括：

通过预设的画面采集设备进行全景采集以获取全景视频图像；

通过虚幻引擎对所述全景视频图像进行预处理以形成背景视频图像，在所述虚幻引擎中播放所述背景视频图像，并通过数据交换机将所述背景视频图像投影在预搭建的高清屏幕虚拟演播室中，使所述高清屏幕虚拟演播室播放展示所述背景视频图像；

通过摄像机拍摄所述高清屏幕虚拟演播室所播放展示的背景视频图像和处于所述高清屏幕虚拟演播室中的主持人前景以形成初始录制视频；

基于预设的深度人像调和网络对所述初始录制视频进行调和处理以获取前后景协调一致的目标视频；其中，所述深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；所述人像掩模网络用于通过人像抠图技术隐式获取所述初始录制视频的人像掩模；所述调和模型用于基于所述人像掩模对所述初始录制视频进行调和以获取目标视频。

优选地，所述画面采集设备采用全景采集设备。

优选地，通过虚幻引擎对所述全景视频图像进行预处理的过程，包括：

通过虚幻引擎中的nDisplay模块对所述全景视频图像进行关于切割、渲染的预处理；其中，

所述nDisplay模块由插件、配置文件和应用程序组成。

优选地，在所述虚幻引擎中播放所述背景视频图像的过程，包括：

在所述虚幻引擎中创建媒体播放器，并将预创建的媒体纹理资产与所述媒体播放器相连接；

基于媒体纹理资产建立蓝图以执行UV坐标转换，基于所述UV坐标转换使所述媒体播放器播放所述背景视频图像。

优选地，通过数据交换机将所述背景视频图像投影在预搭建的高清屏幕虚拟演播室中的过程，包括：

使关于所述nDisplay模块的分支主机处于同一局域网中，通过数据交换机将所述局域网内的分支主机的信号分配至对应的高清屏幕中；开启所述分支主机的nDisplayListener的启动键和投影仪，并在nDisplay Launcher中运行EXE文件，以使所述背景视频图像在所述高清屏幕虚拟演播室中的高清屏幕上播放展示。

优选地，在通过虚幻引擎对所述全景视频图像进行预处理以形成背景视频图像时，还包括获取辅助图像，以基于所述辅助图像和预处理后的全景视频图像生成背景视频图像；其中，获取所述辅助图像的过程，包括：

通过ART系统对预搭建的高清屏幕虚拟演播室中的物品进行追踪以获取追踪目标；

计算所述追踪目标的位置坐标，以确定所述追踪目标的刚体形状，基于所述位置坐标与所述刚体形状获取所述辅助图像。

优选地，所述人像掩模网络调用三个相互依赖的分支；其中，三个分支包括用于预测粗略语掩膜

的低分辨率语义估计分支S、用于计算边界细节蒙版

的高分辨率细节预测分支D，和用于将语义和细节相结合的语义细节融合分支F；其中，

在训练所述人像掩模网络时，所述人像掩模网络的损失为所述三个分支的损失和；

其中，

为所述人像掩模网络的损失；

为所述低分辨率语义估计分支S的损失；

为所述高分辨率细节预测分支D的损失；

为所述语义细节融合分支F的损失；

，

，

为所述人像掩模网络的超参数。

优选地，所述调和模块的解码器部分添加了三个

，并且在所述调和模块的基本架构所采用的网络中设置有

模块；其中，

所述初始录制视频中的原始图像

经过所述调和模块调和获取目标视频；在前景区域中长h、宽w、通道数为c的目标视频的点

为：

其中

和

分别为所述前景区域的特征通道上的均值和标准差，

和

表示第

层通道c中背景的平均值和标准差。

优选地，采集所述人像调和数据集的过程，包括：

将预获取的人像分割数据或调和数据集中的真实场景图像I及其掩膜

进行分离以获取前景区域

和背景区域

；

使所述背景区域

保持不变，对所述前景区域

进行关于光照、对比度、色温的调节以生成待调和图I；其中，

其中，

表示哈达玛积；

对所述待调和图进行汇总以形成人像调和数据集。

另一方面，本发明还提供一种基于高清多屏的虚拟演播系统，其特征在于，基于如前所述的基于高清多屏的虚拟演播方法进行演播，包括画面采集设备、与所述画面采集设备相连接的传播处理模块、与所述传播处理模块连接的高清屏幕虚拟演播室和与所述屏幕播放设备相配合的录制处理模块；其中，

所述画面采集设备用于进行全景采集以获取全景视频图像；

所述传播处理模块包括虚幻引擎，所述虚幻引擎用于对所述全景视频图像进行预处理以形成背景视频图像，播放所述背景视频图像，并通过数据交换机将所述背景视频图像投影在所述高清屏幕虚拟演播室中，使所述高清屏幕虚拟演播室播放展示所述背景视频图像；

所述录制处理模块包括摄像机和深度人像调和网络；其中，

所述摄像机用于拍摄所述高清屏幕虚拟演播室所播放展示的背景视频图像和处于所述高清屏幕虚拟演播室中的主持人前景以形成初始录制视频；

所述深度人像调和网络用于对所述初始录制视频进行调和处理以获取前后景协调一致的目标视频；其中，所述深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；所述人像掩模网络用于通过人像抠图技术隐式获取所述初始录制视频的人像掩模；所述调和模型用于基于所述人像掩模对所述初始录制视频进行调和以获取目标视频。

从上面的技术方案可知，本发明提供的基于高清多屏的虚拟演播方法，首先通过预设的画面采集设备进行全景采集以获取全景视频图像；通过虚幻引擎对全景视频图像进行预处理以形成背景视频图像，在虚幻引擎中播放背景视频图像，并通过数据交换机将背景视频图像投影在预搭建的高清屏幕虚拟演播室中，使高清屏幕虚拟演播室播放展示背景视频图像；再通过摄像机拍摄高清屏幕虚拟演播室所播放展示的背景视频图像和处于高清屏幕虚拟演播室中的主持人前景以形成初始录制视频；而后基于预设的深度人像调和网络对初始录制视频进行调和处理以获取前后景协调一致的目标视频；其中，深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；人像掩模网络用于通过人像抠图技术隐式获取初始录制视频的人像掩模；调和模型用于基于人像掩模对所述初始录制视频进行调和以获取目标视频，如此，通过虚幻引擎对全景视频进行渲染和处理，并投影到高清屏幕虚拟演播室的高清多屏显示系统，在虚拟演播室中建立虚拟背景，对于主持人来说，可以在看得见背景的情况下进行主持，就会提高临场感，有更生动的表现；对于制作团队来说，本方法操作简单，使用便利，通过现场摄像机进行虚实结合拍摄，得到前后景结合的视频，导演可以在现场看到成片级效果；通过端到端的人像调和对拍摄的视频进行处理，解决虚拟演播室现场由于灯光等问题带来的前后景不融合的问题，使画面更加真实大大简化了后期制作流程，并且提高视觉效果，提高观众的观看效果，给虚拟制片行业带来更多的可能性。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的基于高清多屏的虚拟演播方法的流程图；

图2为根据本发明实施例的基于高清多屏的虚拟演播方法中深度人像调和网络进行调和的结构示意图；

图3为根据本发明实施例的基于高清多屏的虚拟演播系统的系统框图。

具体实施方式

基于绿幕的虚拟演播室在单色背景（通常是蓝色或绿色）下拍摄人物和物体，合成一个虚拟背景会导致主持人临场感差；基于电子演播室会大大节省后期制作的时间，但是需要对拍摄的视频进行调和，使前景人物和背景融合得更自然。可以通过人像调和算法实现这一目的。由于前景人物并非在真实的背景下进行拍摄，因此会出现光照、色调等于背景不融合的问题，通过人像调和算法可以对前后景进行调整，使前景在视觉上与背景融合得更自然。目前，大多数调和算法，比如Jun Ling等提出的RainNet算法在进行调和时，需要未处理的图像和前景遮罩作为输入进行调和，这并不适用于在演播室中拍摄得到的前后景结合的视频。因此，本专利提出的虚拟演播室系统中包含了一个端到端的调和网络，不需要输入前景遮罩就可以进行调和。

针对上述问题，本发明提供一种基于高清多屏的虚拟演播方法，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的基于高清多屏的虚拟演播方法，图1对本发明实施例的基于高清多屏的虚拟演播方法进行了示例性标示；图2对本发明实施例的基于高清多屏的虚拟演播系统进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1所示，本发明提供的本发明实施例的基于高清多屏的虚拟演播方法，包括：

S1：通过预设的画面采集设备进行全景采集以获取全景视频图像；

S2：通过虚幻引擎对所述全景视频图像进行预处理以形成背景视频图像，在所述虚幻引擎中播放所述背景视频图像，并通过数据交换机将所述背景视频图像投影在预搭建的高清屏幕虚拟演播室中，使所述高清屏幕虚拟演播室播放展示所述背景视频图像；

S3：通过摄像机拍摄所述高清屏幕虚拟演播室所播放展示的背景视频图像和处于所述高清屏幕虚拟演播室中的主持人前景以形成初始录制视频；

S4：基于预设的深度人像调和网络对所述初始录制视频进行调和处理以获取前后景协调一致的目标视频；其中，所述深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；所述人像掩模网络用于通过人像抠图技术隐式获取所述初始录制视频的人像掩模；所述调和模型用于基于所述人像掩模对所述初始录制视频进行调和以获取目标视频。

在图1所示的实施例中，步骤S1为通过预设的画面采集设备进行全景采集以获取全景视频图像的过程，在该过程中，所述画面采集设备采用全景采集设备，该全景采集设备为全景相机，更为具体的，该全景采集设备可以采用Insta360pro，即将全景相机采集的全景图像或视频等全景画面作为演播室的背景素材。

在图1所示的实施例中，步骤S2为通过虚幻引擎对所述全景视频图像进行预处理以形成背景视频图像，在所述虚幻引擎中播放所述背景视频图像，并通过数据交换机将所述背景视频图像投影在预搭建的高清屏幕虚拟演播室中，使所述高清屏幕虚拟演播室播放展示所述背景视频图像的过程；其中，

通过虚幻引擎对所述全景视频图像进行预处理的过程，包括：

所述nDisplay模块由插件、配置文件和应用程序组成。

在所述虚幻引擎中播放所述背景视频图像的过程，包括：

具体的，该虚幻引擎在本实施例中为Unreal Engine 4（UE4），即利用UnrealEngine 4中的nDisplay模块对输入的全景素材进行切割、渲染等预处理；利用数据交换机将nDisplay得到的画面投影到高清多屏显示系统上；其中，

使全景视频在UE4中播放的操作步骤为：

创建一个媒体播放器，并选择创建媒体纹理资产，连接到媒体播放器，选择媒体纹理并创建材质，在细节面板中设置材料，并建立一个蓝图来执行UV坐标转换，将球体拖入当前关卡，并设置其大小和位置，将材质拖拽到球体材质中，并在关卡蓝图中创建蓝图，就可以在UE4中播放背景视频图像。

通过数据交换机将所述背景视频图像投影在预搭建的高清屏幕虚拟演播室中的过程，包括：

在一个具体实施例中，使用UE4中的nDisplay即可实现全景视频在多屏上的投影，具体的，nDisplay由插件、配置文件和为UE4开发的应用程序组成，配置文件描述了显示系统的拓扑结构和项目的整体位置设置，局域网内的分支电脑通过交换机分配信号到对应的高清屏幕，打开每台电脑上的nDisplay Listener启动和投影仪，添加适当的配置文件，在nDisplay Launcher中运行相应的EXE文件后，UE4的内容即可在高清屏幕虚拟演播室中的高清屏幕上播放，如此，将背景视频图像投影在预搭建的高清屏幕虚拟演播室中，使高清屏幕虚拟演播室播放展示背景视频图像。

通过虚幻引擎对所述全景视频图像进行预处理以形成背景视频图像时，还包括获取辅助图像，以基于所述辅助图像和预处理后的全景视频图像生成背景视频图像；其中，获取所述辅助图像的过程，包括：

即设置使用ART 系统实现虚拟演播室中的物品追踪，ART 系统是一种红外光学追踪系统，能够计算跟踪目标的位置坐标，确定刚体形状，在UE4中，只需下载Dtrack插件，就可以实现对目标物的实时跟踪，且可以使用flystick来控制目标物，并且在一个具体实施例中，可以用ART系统跟踪摄像机，确保摄像机的中心位于球形全景视频的中心，这样输出的视频就不会有几何失真，但需要说明的通过ART 系统才采集的视频中前景和背景看起来不协调，仍需要下述步骤的人像调和算法实现调和。

步骤S3为通过摄像机拍摄高清屏幕虚拟演播室所播放展示的背景视频图像和处于高清屏幕虚拟演播室中的主持人前景以形成初始录制视频的过程，在该过程中，主持人在高清屏幕虚拟演播室的前景工作区进行主持，演播室摄像机同时拍摄前景主持人和高清屏幕虚拟演播室中高清屏幕所展示的背景视频图像；该在高清屏幕虚拟演播室中最少可以设置一个高清屏幕，此时，需要主持人在该高清屏幕的前方，使摄像机拍摄在前方拍摄该主持人和该高清屏幕上的背景视频图像，为了提高整个演播室的真实性和立体感，提高主持人的沉浸感，也可以在高清屏幕虚拟演播室中设置3-6块高清屏幕，由于演播室需要留有人行通道，故在本实施例中，该高清屏幕虚拟演播室中设置有5块高清屏幕，成长方体状，其中一个面用于留设人行通道。

在图1、图2共同所示的实施例中，由于前景和背景之间光照、色温等多方面的差异，前景和背景看起来不协调，该问题可以通过在捕获的图像

上应用图像调和来解决，但目前提出的各类方法都至少需要一个前景掩膜作为辅助输入，而现实中的场景是不具备掩膜的。考虑以上问题，本发明实施例提出一个不需要掩膜的深度人像调和网络，可以使真实部分和虚拟部分的外观保持一致，因此，步骤S4为基于预设的深度人像调和网络对所述初始录制视频进行调和处理以获取前后景协调一致的目标视频的过程；其中，所述深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；所述人像掩模网络用于通过人像抠图技术隐式获取所述初始录制视频的人像掩模；所述调和模型用于基于所述人像掩模对所述初始录制视频进行调和以获取目标视频。

需要说明的是，为了人像调和网络的简洁性，该技术可暂时忽略帧间的影响，当只考虑一帧时，给定前景图像

和背景图像

，任何一张图像均可以视为两个图像的叠加：

，其中

是前景区域中各个像素的掩膜

值，“

” 表示哈达玛积，I是摄像机拍摄的图像。

具体的，该人像掩模网络调用三个相互依赖的分支；其中，三个分支包括用于预测粗略语掩膜

的低分辨率语义估计分支S、用于计算边界细节蒙版

其中，

为所述人像掩模网络的损失；

为所述低分辨率语义估计分支S的损失；

为所述高分辨率细节预测分支D的损失；

为所述语义细节融合分支

的损失；

，

，

为所述人像掩模网络的超参数。

更为具体的，应用人像抠图技术隐式地获取人像掩膜，在本具体实施例中，该人像掩模网络隐式调用

提出的3个相互依赖的分支，包括低分辨率语义估计分支S，用于预测粗略语掩膜

，高分辨率细节预测分支D，用于计算边界细节蒙版

，同时考虑语义与原始图像之间的依赖性，语义细节融合分支F将语义和细节结合起来，得到输入图像中人像掩膜。在训练时将三部分的损失相加，得到该部分整体的损失。

，其中

为低分辨率语义估计分支

的损失，为输出结果和经过高斯模糊的真实掩膜的

损失；

为高分辨率细节预测分支D的损失，为该分支输出结果和真实掩膜的

损失；

为语义细节融合分支F的损失，为该分支输出结果和真实掩膜的

损失加上图像间的损失；

，

，

为模型的超参数。

具体的，该调和模块的解码器部分添加了三个

，并且在所述调和模块的基本架构所采用的网络中设置有

模块；其中，

所述初始录制视频中的原始图像

为：

其中

和

分别为所述前景区域的特征通道上的均值和标准差，

和

表示第

层通道

中背景的平均值和标准差。

更为具体的，将初始录制视频的原始图像和隐式掩膜联合输入至调和模块，该调和模块部分网络的基本架构采用一个简单的类似于

的网络，不包括任何特征规范化层，并且解码器部分添加了三个

，此外，网络中额外添加了

设计的

模块，原始图像

经过调和后，在前景区域长h、宽w、通道数为c的目标视频的点

可以由公式：

获取；

其中

和

分别是前景区域特征通道上的均值和标准差，

和

表示第

层通道c中背景的平均值和标准差。在训练时，损失由真实图像和生成结果的

得到，该部分可通过添加DIH网络提出的生成对抗损失进行优化。

在步骤S4中，所涉及的采集该人像调和数据集的过程，包括：

进行分离以获取前景区域

和背景区域

；

使所述背景区域

保持不变，对所述前景区域

其中，

表示哈达玛积；

对所述待调和图进行汇总以形成人像调和数据集，

更为具体的，利用人像分割或调和数据集建立应用于人像调和任务的新数据集，具体策略可以表示为，利用已有人像分割或调和数据集拥有的真实场景图像I及其掩膜

，分离得到前景区域

和背景区域

，保持背景区域

不变，对前景区域

作光照、对比度、色温的变化，再利用

得到前后背景不协调的合成图，由此可以得到符合人像调和数据集。

而后将上述得到的人像掩模网络和调和模型拼接网络在底层进行拼接，并利用人像调和数据集，在加载部分预训练模型的基础上，进行端到端的训练，最终得到如图2所示的适合于人像调和任务的深度人像调和网络，将该初始录制视频输入该图2所示的深度人像调和网络中即可对初始录制视频进行调和处理以获取前后景协调一致的目标视频。

综上所述，本发明提供的基于高清多屏的虚拟演播方法，首先通过预设的画面采集设备进行全景采集以获取全景视频图像；通过虚幻引擎对全景视频图像进行预处理以形成背景视频图像，在虚幻引擎中播放背景视频图像，并通过数据交换机将背景视频图像投影在预搭建的高清屏幕虚拟演播室中，使高清屏幕虚拟演播室播放展示背景视频图像；再通过摄像机拍摄高清屏幕虚拟演播室所播放展示的背景视频图像和处于高清屏幕虚拟演播室中的主持人前景以形成初始录制视频；而后基于预设的深度人像调和网络对初始录制视频进行调和处理以获取前后景协调一致的目标视频；其中，深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；人像掩模网络用于通过人像抠图技术隐式获取初始录制视频的人像掩模；调和模型用于基于人像掩模对所述初始录制视频进行调和以获取目标视频，如此，通过虚幻引擎对全景视频进行渲染和处理，并投影到高清屏幕虚拟演播室的高清多屏显示系统，在虚拟演播室中建立虚拟背景，对于主持人来说，可以在看得见背景的情况下进行主持，就会提高临场感，有更生动的表现；对于制作团队来说，本方法操作简单，使用便利，通过现场摄像机进行虚实结合拍摄，得到前后景结合的视频，导演可以在现场看到成片级效果；通过端到端的人像调和对拍摄的视频进行处理，解决虚拟演播室现场由于灯光等问题带来的前后景不融合的问题，使画面更加真实大大简化了后期制作流程，并且提高视觉效果，提高观众的观看效果，给虚拟制片行业带来更多的可能性。

如图3所示，本发明还提供一种基于高清多屏的虚拟演播系统100，基于如前所述的基于高清多屏的虚拟演播方法进行演播，包括画面采集设备101、与所述画面采集设备相连接的传播处理模块102、与所述传播处理模块连接的高清屏幕虚拟演播室103和与所述屏幕播放设备相配合的录制处理模块104；其中，

所述画面采集设备101用于进行全景采集以获取全景视频图像；

所述传播处理模块102包括虚幻引擎，所述虚幻引擎用于对所述全景视频图像进行预处理以形成背景视频图像，播放所述背景视频图像，并通过数据交换机将所述背景视频图像投影在所述高清屏幕虚拟演播室中，使所述高清屏幕虚拟演播室播放展示所述背景视频图像；

所述录制处理模块104包括摄像机1041和深度人像调和网络1042；其中，

所述摄像机1041用于拍摄所述高清屏幕虚拟演播室所播放展示的背景视频图像和处于所述高清屏幕虚拟演播室中的主持人前景以形成初始录制视频；

所述深度人像调和网络1042用于对所述初始录制视频进行调和处理以获取前后景协调一致的目标视频；其中，所述深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；所述人像掩模网络用于通过人像抠图技术隐式获取所述初始录制视频的人像掩模；所述调和模型用于基于所述人像掩模对所述初始录制视频进行调和以获取目标视频。

如上所述，本发明提供的基于高清多屏的虚拟演播系统100，通过画面采集设备101进行全景采集以获取全景视频图像；通过传播处理模块102对所述全景视频图像进行预处理以形成背景视频图像，播放所述背景视频图像，并通过数据交换机将所述背景视频图像投影在所述高清屏幕虚拟演播室中，使所述高清屏幕虚拟演播室播放展示所述背景视频图像；通过录制处理模块104中的摄像机1041拍摄所述高清屏幕虚拟演播室所播放展示的背景视频图像和处于所述高清屏幕虚拟演播室中的主持人前景以形成初始录制视频，通过录制处理模块104中的深度人像调和网络1042对初始录制视频进行调和处理以获取前后景协调一致的目标视频；其中，深度人像调和网络由预训练的人像掩模网络和预训练的调和模型拼接，并由预采集的人像调和数据集训练而成；人像掩模网络用于通过人像抠图技术隐式获取所述初始录制视频的人像掩模；调和模型用于基于人像掩模对所述初始录制视频进行调和以获取目标视频，如此，通过虚幻引擎对全景视频进行渲染和处理，并投影到高清屏幕虚拟演播室的高清多屏显示系统，在虚拟演播室中建立虚拟背景，对于主持人来说，可以在看得见背景的情况下进行主持，就会提高临场感，有更生动的表现；对于制作团队来说，本方法操作简单，使用便利，通过现场摄像机进行虚实结合拍摄，得到前后景结合的视频，导演可以在现场看到成片级效果；通过端到端的人像调和对拍摄的视频进行处理，解决虚拟演播室现场由于灯光等问题带来的前后景不融合的问题，使画面更加真实大大简化了后期制作流程，并且提高视觉效果，提高观众的观看效果，给虚拟制片行业带来更多的可能性。

如上参照附图以示例的方式描述了根据本发明提出的基于高清多屏的虚拟演播方法、系统。但是，本领域技术人员应当理解，对于上述本发明所提出的基于高清多屏的虚拟演播方法、系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。