CN114007091A

CN114007091A - 一种视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN114007091A
Application number: CN202111257835.1A
Authority: CN
Inventors: 李文哲; 韩殿飞; 王巍; 蔺颖; 李凯
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-01

Abstract

本公开提供了一种视频处理方法、装置、电子设备及存储介质，方法包括：实时采集目标场景的场景视频，以及未处于目标场景的讲解者针对目标场景的讲解视频；对讲解视频中，讲解者的形象进行虚拟化处理，得到虚拟视频；将虚拟视频与场景视频进行融合，生成目标视频。

Description

一种视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

在直播场景中，通常都需要主播针对直播现场进行讲解，从而便于观众理解直播现场的具体情况。

目前，在主播未处于直播现场的情况下，通常一方面采集直播现场的场景视频，另一方面采集主播针对直播现场的讲解音频，从而将场景视频和讲解音频合成后上传到直播平台，再推送给用户观看。

然而，上述直播过程，仅仅简单的将讲解音频和场景视频进行叠加，实现方式单一，所提供的视觉信息有限，显示效果较差，对观众的吸引力较小。

发明内容

本公开实施例期望提供一种视频处理方法、装置、电子设备及存储介质。

本公开实施例的技术方案是这样实现的：

本公开实施例提供了一种视频处理方法，包括：

实时采集目标场景的场景视频，以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频；

对所述讲解视频中，所述讲解者的形象进行虚拟化处理，得到虚拟视频；

将所述虚拟视频与所述场景视频进行融合，生成目标视频。

在上述方法中，所述对所述讲解视频中，所述讲解者的形象进行虚拟化处理，得到虚拟视频，包括：

从所述讲解视频中，分离出所述讲解者对应的讲解音频和视频图像；

对所述视频图像中，所述讲解者的形象进行虚拟化处理，得到虚拟图像；

将所述虚拟图像与所述讲解音频进行融合，生成所述虚拟视频。

在上述方法中，所述对所述视频图像中，所述讲解者的形象进行虚拟化处理，得到虚拟图像，包括：

根据所述视频图像中所述讲解者的形象生成对应的虚拟形象；

将所述视频图像中，所述讲解者的形象更新为所述对应的虚拟形象，得到所述虚拟图像；

或者，获取预设虚拟形象；

将所述视频图像中，所述讲解者的形象更新为所述预设虚拟形象，得到所述虚拟图像。

在上述方法中，所述将所述虚拟视频与所述场景视频进行融合，生成目标视频，包括：

从所述场景视频中，分离出所述目标场景对应的场景音频和场景图像；

对所述场景音频进行优化处理，得到优化后的场景音频；

将所述优化后的场景音频、所述场景图像，以及所述虚拟视频进行融合，生成所述目标视频。

在上述方法中，还包括：

对所述讲解视频中，所述讲解者对应的讲解音频进行语音识别，得到讲解文本；

对所述讲解文本进行语义自动纠错，得到纠错后的讲解文本；

所述将所述虚拟视频与所述场景视频进行融合，生成目标视频之后，所述方法还包括：

利用所述纠错后的讲解文本，对所述目标视频添加字幕。

在上述方法中，所述将所述虚拟视频与所述场景视频进行融合，生成目标视频之后，还包括：

针对观看对象播放所述目标视频；

实时采集所述观看对象在观看所述目标视频期间，针对所述目标视频的反馈信息；所述反馈信息，包括所述观看对象的语音信息和图像信息中的至少一项；

利用所述反馈信息对所述观看对象进行角色分析，得到所述观看对象的角色分析结果；

基于所述角色分析结果，实时调整所述目标视频中，所述讲解者的虚拟形象。

在上述方法中，所述针对观看对象播放所述目标视频之后，还包括：

在接收到停止显示指令的情况下，停止显示所述目标视频中所述讲解者的虚拟形象。

本公开实施例提供了一种视频处理装置，包括：

采集模块，用于实时采集目标场景的场景视频，以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频；

处理模块，用于对所述讲解视频中，所述讲解者的形象进行虚拟化处理，得到虚拟视频；

融合模块，用于将所述虚拟视频与所述场景视频进行融合，生成目标视频。

在上述装置中，所述处理模块，具体用于从所述讲解视频中，分离出所述讲解者对应的讲解音频和视频图像；对所述视频图像中，所述讲解者的形象进行虚拟化处理，得到虚拟图像；将所述虚拟图像与所述讲解音频进行融合，生成所述虚拟视频。

在上述装置中，所述处理模块，具体用于根据所述视频图像中所述讲解者的形象生成对应的虚拟形象；将所述视频图像中，所述讲解者的形象更新为所述对应的虚拟形象，得到所述虚拟图像；或者，获取预设虚拟形象；将所述视频图像中，所述讲解者的形象更新为所述预设虚拟形象，得到所述虚拟图像。

在上述装置中，所述融合模块，具体用于从所述场景视频中，分离出所述目标场景对应的场景音频和场景图像；对所述场景音频进行优化处理，得到优化后的场景音频；将所述优化后的场景音频、所述场景图像，以及所述虚拟视频进行融合，生成所述目标视频。

在上述装置中，所述处理模块，还用于对所述讲解视频中，所述讲解者对应的讲解音频进行语音识别，得到讲解文本；对所述讲解文本进行语义自动纠错，得到纠错后的讲解文本；利用所述纠错后的讲解文本，对所述目标视频添加字幕。

在上述装置中，所述处理模块，还用于针对观看对象播放所述目标视频；实时采集所述观看对象在观看所述目标视频期间，针对所述目标视频的反馈信息；所述反馈信息，包括所述观看对象的语音信息和图像信息中的至少一项；利用所述反馈信息对所述观看对象进行角色分析，得到所述观看对象的角色分析结果；基于所述角色分析结果，实时调整所述目标视频中，所述讲解者的虚拟形象。

在上述装置中，所述处理模块，还用于在接收到停止显示指令的情况下，停止显示所述目标视频中所述讲解者的虚拟形象。

本公开实施例提供了一种电子设备，包括：处理器、存储器和通信总线；其中，

所述通信总线，用于实现所述处理器和所述存储器之间的连接通信；

所述处理器，用于执行所述存储器中存储的一个或多个程序，以实现上述视频处理方法。

本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现上述视频处理方法。

本公开实施例提供了一种视频处理方法、装置、电子设备及存储介质，方法包括：实时采集目标场景的场景视频，以及未处于目标场景的讲解者针对目标场景的讲解视频；对讲解视频中，讲解者的形象进行虚拟化处理，得到虚拟视频；将虚拟视频与场景视频进行融合，生成目标视频。本公开实施例提供的技术方案，将不同场景的讲解者视频和场景视频，基于虚拟形象技术进行合成，从而丰富了视频提供的视觉信息，提高了视频显示效果。

附图说明

图1为本公开实施例提供的一种视频处理方法的流程示意图；

图2为本公开实施例提供的一种示例性的视频融合示意图；

图3为本公开实施例提供的一种示例性的视频处理架构示意图；

图4为本公开实施例提供的一种视频处理装置的结构示意图；

图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

本公开实施例提供了一种视频处理方法，其执行主体可以是视频处理装置，例如，视频处理方法可以由终端设备或服务器或其它电子设备执行，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

图1为本公开实施例提供的一种视频处理方法的流程示意图。如图1所示，在本公开的实施例中，视频处理方法主要包括以下步骤：

S101、实时采集目标场景的场景视频，以及未处于目标场景的讲解者针对目标场景的讲解视频。

在本公开的实施例中，视频处理装置可以实时采集目标场景的场景视频，以及未处于目标场景的讲解者针对目标场景的讲解视频。

需要说明的是，在本公开的实施例中，视频处理方法所针对的应用场景为：讲解者未处于目标场景，即采集的场景视频中不包括讲解者，例如，在某些体育赛事直播时，讲解员往往不能处于比赛场地中，而是单独在远程的直播间中，针对比赛场地中的赛事进行解说。

需要说明的是，在本公开的实施例中，目标场景可以是教学场景、竞赛场景、销售场景等，相应的，讲解者可以是教师、运动员、主播等，具体的目标场景和讲解者可以根据实际应用场景确定，本公开实施例不作限定。

可以理解的是，在本公开的实施例中，视频处理装置实现场景视频和讲解视频两路视频的采集，可以依赖于两个摄像头，即利用一个摄像头采集场景视频，一个摄像头采集讲解视频。

S102、对讲解视频中，讲解者的形象进行虚拟化处理，得到虚拟视频。

在本公开的实施例中，视频处理装置在采集到讲解视频之后，即可对讲解视频中，讲解者的形象进行虚拟化处理，得到虚拟视频。

具体的，在本公开的实施例中，视频处理装置对讲解视频中，讲解者的形象进行虚拟化处理，得到虚拟视频，包括：从讲解视频中，分离出讲解者对应的讲解音频和视频图像；对视频图像中，讲解者的形象进行虚拟化处理，得到虚拟图像；将虚拟图像与讲解音频进行合成，生成虚拟视频。

可以理解的是，在本公开的实施例中，视频处理装置在进行讲解者的形象虚拟化时，由于讲解者的形象虚拟化是视觉信息的处理，因此，可以先对讲解视频进行音视频分离，从而得到讲解者的讲解音频和视频图像，再对视频图像中讲解者的形象进行虚拟化处理后与讲解音频融合。

可以理解的是，在本公开的实施例中，视频处理装置从讲解视频中分离出的讲解者对应的视频图像，实际上是按照时序排列的一系列图像，对于其中每一帧图像，视频处理装置均进行讲解者的信息虚拟化处理。

具体的，在本公开的实施例中，视频处理装置对视频图像中，讲解者的形象进行虚拟化处理，得到虚拟图像，包括：根据视频图像中讲解者的形象生成对应的虚拟形象；将视频图像中，讲解者的形象更新为对应的虚拟形象，得到虚拟图像；或者，获取预设虚拟形象；将视频图像中，讲解者的形象更新为预设虚拟形象，得到虚拟图像。

需要说明的是，在本公开的实施例中，视频处理装置可以采用特定的虚拟化算法，实现对视频图像中，讲解者的人脸、身体等部位的检测，获取其形态、表情等特征，从而基于这些特征绘制出讲解者对应的虚拟形象，并将视频图像中讲解者的形象更新为对应的虚拟形象。此外，视频处理装置中还可以存储有预设虚拟形象库，用户也可以从预设虚拟形象库中选取喜好的虚拟形象，并指示给视频处理装置，视频处理装置即可获取到预设虚拟形象，从而直接将视频图像中讲解者的形象更新为预设虚拟形象，以满足用户的喜好。当然，视频处理装置还可以采用其他可行的人像虚拟化的方式进行虚拟化处理，本公开实施例不作限定。

需要说明的是，在本公开的实施例中，视频处理装置在获得虚拟图像之后，将虚拟图像与讲解音频进行融合之前，还可以对讲解音频进行优化处理，例如，对讲解音频进行降噪，去除掉其中的杂音等，从而提高音频效果，相应的，视频处理装置将虚拟图像与讲解音频进行融合，即将虚拟图像与优化后的讲解音频进行融合。

S103、将虚拟视频与场景视频进行融合，生成目标视频。

在本公开的实施例中，视频处理装置在得到虚拟视频的情况下，即可将虚拟视频与场景视频进行融合，从而生成目标视频。

具体的，在本公开的实施例中，视频处理装置从场景视频中，分离出目标场景对应的场景音频和场景图像；对场景音频进行优化处理，得到优化后的场景音频；将优化后的场景音频、场景图像，以及虚拟视频进行融合，生成目标视频。

需要说明的是，在本公开的实施例中，视频处理装置针对场景音频，也可以进行音视频分离，从而得到场景音频和场景图像，这样，可以进一步对场景音频进行优化，例如，对场景音频进行降噪，背景音渲染等，之后，再与虚拟视频和场景图像进行融合，从而提高视频的音效。

可以理解的是，在本公开的实施例中，视频处理装置将优化后的场景音频、场景图像，以及虚拟视频进行融合，实际上就是将这些信息同步合并在一起，从而得到目标视频，目标视频中即同时包括目标场景和解说者的音频和图像信息，并且，解说者的形象还是虚拟化的，目标视频视觉信息丰富，且具备吸引力。

在本公开的实施例中，视频处理装置还可以执行以下步骤：对讲解视频中，讲解者对应的讲解音频进行语音识别，得到讲解文本；对讲解文本进行语义自动纠错，得到纠错后的讲解文本；利用纠错后的讲解文本，对目标视频添加字幕。

可以理解的是，在本公开的实施例中，如步骤S102所述，视频处理装置在进行讲解视频中，从讲解视频中分离出讲解音频，针对于讲解音频，视频处理装置还可以进行语音识别，从而得到讲解文本，由于语音识别容易存在误识别，并且讲解者在讲解时也可能存在语义错误等问题，为了保证讲解文本的正确性，视频处理装置可以进一步对讲解文本进行语义自动纠错，从而得到纠错后的讲解文本。

需要说明的是，在本公开的实施例中，如步骤S102所述，视频处理装置在从讲解视频中分离出讲解音频之后，可以对其进行优化处理，在此情况下，视频处理装置对讲解视频中，讲解者对应的讲解音频进行语音识别，可以是对优化后的讲解音频进行语音识别，从而提高语音识别的准确性。

需要说明的是，在本公开的实施例中，视频处理装置利用纠错后的讲解文本，对目标视频添加字幕，可以是直接将讲解文本中每一句讲解文字，同步添加到目标视频中，解说者述说对应的语句的画面中，从而便于观众更明确的获知解说者解说的内容，此外，也可以对讲解文本进行分析，生成对目标视频中部分画面进行补充说明或提示的文本，从而将这些文本添加到目标视频中对应的画面中，提高目标视频的显示效果，丰富视频呈现的信息。

图2为本公开实施例提供的一种示例性的视频融合示意图。如图2所示，在本公开的实施例中，在远程直播场景，即主播并未在直播现场的场景下，视频处理装置在获得主播讲解视频和直播场景视频的情况下，可以分别对两个视频进行音视频分离，从而得到对应的音频和图像，之后，视频处理装置可以对主播音频和场景音频分别进行优化处理，对主播图像进行虚拟化处理，并将主播音频和虚拟图像进行融合，生成包含虚拟主播的虚拟视频，再与直播图像和优化后的直播音频融合，生成目标视频。此外，视频处理装置对于主播音频优化后，还可以对其进行语音识别，再对得到的讲解文本进行语义自动纠错，最后利用其对目标视频进行字幕添加后再将视频上传到直播平台，从而通过直播平台播放。

在本公开的实施例中，视频处理装置在将虚拟视频与场景视频进行融合，生成目标视频之后，还可以执行以下步骤：针对观看对象播放目标视频；实时采集观看对象在观看目标视频期间，针对目标视频的反馈信息；反馈信息，包括观看对象的语音信息和图像信息中的至少一项；利用反馈信息对观看对象进行角色分析，得到观看对象的角色分析结果；基于角色分析结果，实时调整目标视频中，讲解者的虚拟形象。

需要说明的是，在本公开的实施例中，视频处理装置在生成目标视频之后，可以针对观看对象播放目标视频，从而实时采集观看对象在观看目标视频期间的语音信息和/或图像信息，其中，图像信息可以是针对观看对象拍摄的一帧或多帧图像，也可以是针对观看对象拍摄的一段时长的视频，本公开实施例不作限定。若反馈信息包含语音信息和视频信息，视频处理装置即可利用多模态交互智能分析引擎，根据这些信息进行语音识别、语言理解、视频理解、情感分析、多模态认证和行为分析，从而得到观看对象的角色分析结果，这样，可以进一步实时调整目标视频中，讲解者的虚拟形象，例如，调整虚拟形象的展示形态和表情，从而实现与观看对象的适配，提高了视频显示的灵活性和多样性。

需要说明的是，在本公开的实施例中，观看对象的角色分析结果可以包括观看对象的身份、年龄、性别、情绪等信息，视频处理装置根据这些信息，可以实时调整目标视频中，讲解者的虚拟形象，以与观看对象的这些信息匹配。例如，视频处理装置在利用反馈信息进行观看对象的角色分析，确定出观看对象为儿童，因此，可以将目标视频中，讲解者的虚拟形象实时调整为卡通形象。

在本公开的实施例中，视频处理装置针对观看对象播放目标视频之后，还可以执行以下步骤：在接收到停止显示指令的情况下，停止显示目标视频中讲解者的虚拟形象。

可以理解的是，在本公开的实施例中，观看对象可能并不期望在显示讲解者的虚拟形象，因此，可以通过特定的触控操作或按键，向视频处理装置发送停止显示指令，这样，视频处理装置在接收到停止显示指令的情况下，即可停止显示目标视频中讲解者的虚拟形象，从而提高了目标视频中讲解者的虚拟形象显示的灵活性。

图3为本公开实施例提供的一种示例性的视频处理架构示意图。如图3所示，在本公开的实施例中，视频处理装置可以包括视频生成端和视频播放端，在视频生成端，实现主播视频中主播形象的虚拟化处理，从而与场景视频融合，上传到直播平台和本地存储，在视频播放端，采集用户交互数据，例如，用户在观看视频期间的语音和视频，从而进行分析，确定用户角色，再实时进行视频中主播虚拟形象的调整。此外，在视频生成端，可以允许用户设置虚拟形象，在视频播放端，用户可以通过控制端从而控制是否在视频中显示主播的虚拟形象。

本公开实施例提供了一种视频处理方法，包括：实时采集目标场景的场景视频，以及未处于目标场景的讲解者针对目标场景的讲解视频；对讲解视频中，讲解者的形象进行虚拟化处理，得到虚拟视频；将虚拟视频与场景视频进行融合，生成目标视频。本公开实施例提供的视频处理方法，将不同场景的讲解者视频和场景视频，基于虚拟形象技术进行合成，从而丰富了视频提供的视觉信息，提高了视频显示效果。

本公开实施例提供了一种视频处理装置。图4为本公开实施例提供的一种视频处理装置的结构示意图。如图4所示，在本公开的实施例中，视频处理装置包括：

采集模块401，用于实时采集目标场景的场景视频，以及未处于所述目标场景的讲解者针对所述目标场景的讲解视频；

处理模块402，用于对所述讲解视频中，所述讲解者的形象进行虚拟化处理，得到虚拟视频；

融合模块403，用于将所述虚拟视频与所述场景视频进行融合，生成目标视频。

在本公开一实施例中，所述处理模块402，具体用于从所述讲解视频中，分离出所述讲解者对应的讲解音频和视频图像；对所述视频图像中，所述讲解者的形象进行虚拟化处理，得到虚拟图像；将所述虚拟图像与所述讲解音频进行融合，生成所述虚拟视频。

在本公开一实施例中，所述处理模块402，具体用于根据所述视频图像中所述讲解者的形象生成对应的虚拟形象；将所述视频图像中，所述讲解者的形象更新为所述对应的虚拟形象，得到所述虚拟图像；或者，获取预设虚拟形象；将所述视频图像中，所述讲解者的形象更新为所述预设虚拟形象，得到所述虚拟图像。

在本公开一实施例中，所述融合模块403，具体用于从所述场景视频中，分离出所述目标场景对应的场景音频和场景图像；对所述场景音频进行优化处理，得到优化后的场景音频；将所述优化后的场景音频、所述场景图像，以及所述虚拟视频进行融合，生成所述目标视频。

在本公开一实施例中，所述处理模块402，还用于对所述讲解视频中，所述讲解者对应的讲解音频进行语音识别，得到讲解文本；对所述讲解文本进行语义自动纠错，得到纠错后的讲解文本；利用所述纠错后的讲解文本，对所述目标视频添加字幕。

在本公开一实施例中，所述处理模块402，还用于针对观看对象播放所述目标视频；实时采集所述观看对象在观看所述目标视频期间，针对所述目标视频的反馈信息；所述反馈信息，包括所述观看对象的语音信息和图像信息中的至少一项；利用所述反馈信息对所述观看对象进行角色分析，得到所述观看对象的角色分析结果；基于所述角色分析结果，实时调整所述目标视频中，所述讲解者的虚拟形象。

在本公开一实施例中，所述处理模块402，还用于在接收到停止显示指令的情况下，停止显示所述目标视频中所述讲解者的虚拟形象。

本公开实施例提供了一种视频处理装置，实时采集目标场景的场景视频，以及未处于目标场景的讲解者针对目标场景的讲解视频；对讲解视频中，讲解者的形象进行虚拟化处理，得到虚拟视频；将虚拟视频与场景视频进行融合，生成目标视频。本公开实施例提供的视频处理装置，将不同场景的讲解者视频和场景视频，基于虚拟形象技术进行合成，从而丰富了视频提供的视觉信息，提高了视频显示效果。

本公开实施例提供了一种电子设备。图5为本公开实施例提供的一种电子设备的结构示意图。如图5所示，在本公开的实施例中，电子设备包括：处理器501、存储器502和通信总线503；其中，

所述通信总线503，用于实现所述处理器501和所述存储器502之间的连接通信；

所述处理器501，用于执行所述存储器502中存储的一个或多个程序，以实现上述视频处理方法。

本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现上述视频处理方法。计算机可读存储介质可以是是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatilememory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；也可以是包括上述存储器之一或任意组合的各自设备，如移动电话、计算机、平板设备、个人数字助理等。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信号处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信号处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信号处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信号处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。

Claims

1.一种视频处理方法，其特征在于，包括：

将所述虚拟视频与所述场景视频进行融合，生成目标视频。

2.根据权利要求1所述的方法，其特征在于，所述对所述讲解视频中，所述讲解者的形象进行虚拟化处理，得到虚拟视频，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述视频图像中，所述讲解者的形象进行虚拟化处理，得到虚拟图像，包括：

或者，获取预设虚拟形象；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述虚拟视频与所述场景视频进行融合，生成目标视频，包括：

对所述场景音频进行优化处理，得到优化后的场景音频；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

利用所述纠错后的讲解文本，对所述目标视频添加字幕。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述虚拟视频与所述场景视频进行融合，生成目标视频之后，所述方法还包括：

针对观看对象播放所述目标视频；

7.根据权利要求6所述的方法，其特征在于，所述针对观看对象播放所述目标视频之后，所述方法还包括：

8.一种视频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和通信总线；其中，

所述处理器，用于执行所述存储器中存储的一个或多个程序，以实现权利要求1-7任一项所述的视频处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现权利要求1-7任一项所述的视频处理方法。