CN113411537B

CN113411537B - 视频通话方法、装置、终端及存储介质

Info

Publication number: CN113411537B
Application number: CN202110711621.0A
Authority: CN
Inventors: 王琳; 刘飞
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2023-04-25
Anticipated expiration: 2041-06-25
Also published as: CN113411537A

Abstract

本申请实施例公开了一种视频通话方法、装置、终端及存储介质，属于网络通讯技术领域。该方法包括：响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到第一原始视频画面的第一原始前景图像和第一原始背景图像；确定视频通话过程中采用的第一目标背景；基于第一原始前景图像和第一目标背景，向第二通话端发送第一视频通话数据。使第二通话端播放的视频营造出前景内容位于VR场景中或者AR模型位于现实场景中的效果，既能隐藏第一通话端所采集到的现实场景，保护用户的隐私，提高视频通话的安全性，并提高视频通话使用率。

Description

视频通话方法、装置、终端及存储介质

技术领域

本申请实施例涉及网络通讯技术领域，特别涉及一种视频通话方法、装置、终端及存储介质。

背景技术

视频通话是指基于互联网，通过终端之间实时传送人的语音和图像(用户的半身像、照片、物品等)的一种通信方式。

相关技术中，视频发送端实时将采集到的视频发送至视频接收端，使视频接收端播放视频，以达到视频通话的效果。

然而，实时传送真实的视频画面可能会暴露用户的隐私，存在安全隐患，且相关技术通常是通过覆盖背景图片、颜色或在人像周围添加马赛克效果等方式，模糊视频画面中人像以外的部分，容易降低对端用户的通话体验。

发明内容

本申请实施例提供了一种视频通话方法、装置、终端及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种视频通话方法，所述方法应用于第一通话端，所述方法包括：

响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到所述第一原始视频画面的第一原始前景图像；

确定视频通话过程中采用的第一目标背景，所述第一目标背景是基于第一目标虚拟现实(Virtual Reality，VR)场景生成的VR背景，或基于现实场景和目标增强现实(Augmented Reality，AR)模型生成的AR背景，或基于所述第一目标VR场景以及所述目标AR模型生成的混合背景，其中VR场景通过VR建模得到；

基于所述第一原始前景图像和所述第一目标背景，向第二通话端发送第一视频通话数据，以便所述第二通话端基于所述第一视频通话数据显示第一目标视频画面，所述第一目标视频画面由所述第一原始前景图像以及所述第一目标背景对应的第一目标背景图像融合得到。

另一方面，本申请实施例提供了一种视频通话装置，所述装置包括：

画面分割模块，用于响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到所述第一原始视频画面的第一原始前景图像；

第一确定模块，用于确定视频通话过程中采用的第一目标背景，所述第一目标背景是基于第一目标VR场景生成的VR背景，或基于现实场景和目标AR模型生成的AR背景，或基于所述第一目标VR场景以及所述目标AR模型生成的混合背景，其中VR场景通过VR建模得到；

发送模块，用于基于所述第一原始前景图像和所述第一目标背景，向第二通话端发送第一视频通话数据，以便所述第二通话端基于所述第一视频通话数据显示第一目标视频画面，所述第一目标视频画面由所述第一原始前景图像以及所述第一目标背景对应的第一目标背景图像融合得到。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频通话方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的视频通话方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的视频通话方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，当用户启用通话背景替换功能进行视频通话时构建VR场景和/或AR模型，将第一原始视频画面进行分割，并将分割得到的第一原始背景图像替换为第一目标背景，使得第二通话端所播放的视频画面能够营造出前景内容位于VR场景中、前景内容以及AR模型位于现实场景中，或者前景内容位于AR与VR结合的混合场景中的效果，相比于相关技术中用图片覆盖通话背景的方式，既能够隐藏第一通话端所采集到的现实场景，保护用户的隐私，提高视频通话的安全性，并提高视频通话使用率。

并且，本申请实施例通过VR建模构建VR场景和/或通过AR建模构建AR模型，使第二通话端展示出第一通话端所采集的前景内容处于虚拟世界中或者虚拟物体处于现实世界中的效果，相比于单一的图片或动画，能够增强视频通话的趣味性。

附图说明

图1是本申请一个示例性实施例提供的实施环境的示意图；

图2是本申请一个示例性实施例提供的视频通话方法的流程图；

图3是本申请一个示例性实施例提供的基于第一原始视频画面生成第一目标视频画面的示意图；

图4是本申请另一个示例性实施例提供的视频通话方法的流程图；

图5是本申请一个示例性实施例提供的视频通话系统的框架图；

图6是本申请另一个示例性实施例提供的视频通话方法的流程图；

图7是本申请另一个示例性实施例提供的视频通话系统的框架图；

图8是本申请另一个示例性实施例提供的视频通话方法的流程图；

图9是本申请另一个示例性实施例提供的视频通话方法的流程图；

图10是本申请另一个示例性实施例提供的基于第一原始视频画面生成第一目标视频画面的示意图；

图11是本申请另一个示例性实施例提供的视频通话方法的流程图；

图12是本申请一个示例性实施例提供的视频通话装置的结构框图；

图13是本申请一个示例性实施例提供的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

图1示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以包括：第一通话端110、服务器120和第二通话端130。

第一通话端110安装和运行有支持视频通话的应用程序111，当第一通话端运行应用程序111时，第一通话端110的屏幕上显示应用程序111的用户界面。第一通话端110是第一用户112使用的终端，第一用户112使用第一通话端110与其它用户进行视频通话。在开始视频通话之前，第一用户112通过交互操作使第一通话端110显示通话设置界面，使得第一用户112可以通过通话设置界面设置背景替换方式。

第二通话端130安装和运行有支持视频通话的应用程序131，当第二通话端130运行应用程序131时，第二通话端130的屏幕上显示应用程序131的用户界面。第二通话端130是第二用户132使用的终端，第二用户132使用第二通话端130与其它用户进行视频通话。在开始视频通话之前，第二用户132通过交互操作使第二通话端130显示通话设置界面，使得第二用户132可以通过通话设置界面设置背景替换方式。

可选地，第一通话端110和第二通话端130上安装的应用程序是相同的，或两个终端上安装的应用程序是不同操作系统平台(安卓或IOS)上的同一类型应用程序。第一通话端110可以泛指多个终端中的一个，第二通话端130可以泛指多个终端中的另一个，本实施例仅以第一通话端110和第二通话端130来举例说明。第一通话端110和第二通话端130的设备类型相同或不同，该设备类型包括：智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。

第一通话端110、第二通话端130以及其它终端通过无线网络或有线网络与服务器120相连。

服务器120包括一台服务器、多台服务器组成的服务器集群、云计算平台和虚拟化中心中的至少一种。服务器120用于为支持视频通话的应用程序提供后台服务，并转发各个终端发送的视频通话数据。

图2示出了本申请一个示例性实施例提供的视频通话方法的流程图。本实施例以该方法用于图1所示的第一通话端为例进行说明，该方法包括如下步骤：

步骤201，响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到第一原始视频画面的第一原始前景图像和第一原始背景图像。

在一种可能的实施方式中，第一通话端内安装有具有视频通话功能的应用程序，该应用程序还具有通话背景替换功能，或者，通话背景替换功能为第一通话端的系统功能，本申请实施例对此不作限定。用户可以在开始视频通话之前，或者视频通话过程中启用通话背景替换功能。其中，通话背景是指视频通话的视频画面中除前景(比如人像)以外的部分。

当通话背景替换功能处于启用状态时，第一通话端的摄像头实时采集第一原始视频画面，并对第一原始视频画面进行画面分割，得到第一原始前景图像和第一原始背景图像，以便后续将第一原始背景图像替换为其它背景图像。

例如，第一通话端以人像为前景，当采集到一帧第一原始视频画面时，对该帧画面进行画面分割，将画面中的人像部分与其它内容分离，其中包含人像的图像即为第一原始前景图像，包含其它内容的另一张图像即为第一原始背景图像。

步骤202，确定视频通话过程中采用的第一目标背景。

第一目标背景是基于第一目标VR场景生成的VR背景，或基于现实场景和目标AR模型生成的AR背景，或基于第一目标VR场景以及目标AR模型生成的混合背景，其中VR场景通过VR建模得到。

可选的，当通话背景替换功能处于启用状态时，第一通话端通过VR建模构建第一目标VR场景。由于第一通话端构建出的第一目标VR场景为立体的虚拟世界，因此为了营造出第一原始背景图像中的第一原始前景处于第一目标VR场景中的画面，提高画面真实性，在视频通话过程中第一通话端需要根据用户的位置、拍摄角度等参数从第一目标VR场景中确定第一目标背景，用于替换当前一帧第一原始视频画面中的第一原始背景图像。或者，当通话背景替换功能处于启用状态时，第一通话端通过AR建模构建目标AR模型，确定目标AR模型在现实场景中的位置，从而结合现实场景以及目标AR模型确定第一目标背景。或者，当通话背景替换功能处于启用状态时，第一通话端既通过VR建模构建第一目标VR场景，同时也构建目标AR模型，从而生成结合VR背景以及AR模型的混合背景。其中目标AR模型可以添加显示在通话背景中，也可以用于替换通话背景中的主体，本申请实施例对此不做限定。

步骤203，基于第一原始前景图像和第一目标背景，向第二通话端发送第一视频通话数据，以便第二通话端基于第一视频通话数据显示第一目标视频画面。

其中，第一目标视频画面由第一原始前景图像以及第一目标背景对应的第一目标背景图像融合得到。

第一通话端基于第一原始前景图像和第一目标背景，向第二通话端发送第一视频通话数据，第二通话端接收第一视频通话数据，并基于第一视频通话数据获取第一目标视频画面，从而通过显示屏显示第一目标视频画面。其中，第一目标视频画面由第一原始前景图像以及第一目标背景对应的第一目标背景图像融合得到，使得第二通话端的用户观看到第一通话端所采集到的前景处于第一目标VR场景中的景象。

在一种可能的实施方式中，第一通话端的视频通话界面中包含第一窗口和第二窗口，其中，第一窗口用于显示第二通话端采集到的画面，第二窗口用于显示第一通话端采集到的画面。可选的，第二窗口显示第一原始视频画面，或者显示第一目标视频画面。

示意性的，如图3所示，第一通话端对应的第一用户302正在进行视频通话，且由于在卧室内进行视频通话，为了保证隐私，第一用户302在通话开始前启用了背景替换功能中的VR场景替换功能，第一通话端在某一时刻通过摄像头采集到第一原始视频画面301，并对第一原始视频画面301进行画面分割，将第一用户302的人像(前景)与画面中的其它内容(背景)分离，并确定出第一目标背景，进而使得第二通话端所显示的该时刻的第一目标视频画面303的画面内容为第一用户302处于第一目标VR场景中。

综上所述，本申请实施例中，当用户启用通话背景替换功能进行视频通话时构建VR场景和/或AR模型，将第一原始视频画面进行分割，并将分割得到的第一原始背景图像替换为第一目标背景，使得第二通话端所播放的视频画面能够营造出前景内容位于VR场景中、前景内容以及AR模型位于现实场景中，或者前景内容位于AR与VR结合的混合场景中的效果，相比于相关技术中用图片覆盖通话背景的方式，既能够隐藏第一通话端所采集到的现实场景，保护用户的隐私，提高视频通话的安全性，并提高视频通话使用率。

第一通话端在确定第一目标背景时，需要依据摄像头采集第一原始视频画面时的拍摄姿态，从第一目标VR场景中确定第一目标背景，或者基于现实场景和AR模型确定第一目标背景，以使第二通话端所显示的第一目标视频画面中第一目标背景的变化情况与第一通话端在现实环境中的移动情况相符，提高视频的真实性。图4示出了本申请另一个示例性实施例提供的视频通话方法的流程图。本实施例以该方法用于图1所示的第一通话端为例进行说明，该方法包括如下步骤：

步骤401，响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到第一原始视频画面的第一原始前景图像和第一原始背景图像。

步骤401的具体实施方式可以参考上述步骤201，本申请实施例在此不再赘述。

步骤402，获取摄像头采集第一原始视频画面时的拍摄姿态。

为了营造出第一原始前景图像对应的前景处于第一目标VR场景中的画面，类似于拍摄现实环境，若用户移动或者握持第一通话端的姿态发生变化，则第一通话端应当采集到的第一目标背景对应的内容也会发生变化，因此，第一通话端需要获取摄像头采集第一原始视频画面时的拍摄姿态，从而根据该拍摄姿态确定第一目标背景。

例如，若视频通话过程中第一通话端的用户在现实世界中向右走动，则第二通话端所显示的视频内容应当为第一通话端的用户在第一目标VR场景中向右走动，第二通话端所显示的第一目标背景应当不断变化。

在一种可能的实施方式中，拍摄姿态包括摄像头相对于预设坐标系的坐标和拍摄角度、摄像头的视野范围等，其中预设坐标系是以视频通话开始时摄像头的位置为原点的三维坐标系。

步骤403，基于拍摄姿态从第一目标VR场景和/或现实场景中确定第一目标背景。

在一种可能的实施方式中，当第一目标背景为VR背景时，第一通话端基于摄像头的拍摄姿态，确定在该拍摄姿态下能够从第一目标VR场景中采集到的背景，将该背景确定为第一目标背景；当第一目标背景为AR背景时，第一通话端基于摄像头的拍摄姿态，确定在该拍摄姿态下目标AR模型处于现实场景中的位置和角度等信息，从而确定第一目标背景；当第一目标背景为VR与AR结合的混合背景时，第一通话端基于摄像头的拍摄姿态，确定从第一目标VR场景中采集到的背景内容，以及对目标AR模型的拍摄角度，进而结合VR场景内容和AR模型确定第一目标背景。

步骤404，控制第一目标VR场景中的虚拟相机和/或用于拍摄目标AR模型的虚拟相机，按照拍摄姿态对第一目标背景进行拍摄，得到第一目标背景图像。

在一种可能的实施方式中，当第一目标背景为VR背景时，第一通话端在第一目标VR场景中设置有虚拟相机，当第一通话端确定出第一目标背景时，控制该虚拟相机从第一目标VR背景中拍摄得到第一目标背景图像。其中，虚拟相机在第一目标VR场景中的拍摄姿态与第一通话端的摄像头拍摄第一原始视频画面时的拍摄姿态一致，即当摄像头的位置、拍摄角度等发生变化时，第一通话端控制虚拟相机进行同样的变化，使得最终视频画面中展示出的VR背景变化情况与实际背景变化情况一致，提高VR背景的真实性，并使得第二通话端所播放的视频画面更加流畅。

例如，若用户手持第一通话端向摄像头的拍摄方向移动，则第一通话端同样控制虚拟相机在第一目标VR场景中延拍摄方向移动相同的距离。

相应的，当第一目标背景为AR背景或VR与AR结合的混合背景时，第一通话端还需构建AR模型，并控制虚拟相机对其进行拍摄，虚拟相机的拍摄姿态与第一通话端的摄像头拍摄第一原始画面时的拍摄姿态一致。

步骤405，对第一目标背景图像与第一原始前景图像进行融合，得到第一目标视频画面。

第一目标视频画面由第一原始前景图像以及第一目标背景对应的第一目标背景图像融合得到。在一种可能的实施方式中，第一原始前景图像与第一目标背景图像的融合过程由第一通话端(发送端)执行，第一通话端将融合完成的第一目标背景图像发送至第二通话端，使得第二通话端能够直接显示第一目标背景图像。

步骤406，对第一目标视频画面进行编码，得到第一画面编码数据。

第一通话端对第一目标视频画面进行编码，得到第一画面编码数据，从而向第二通话端发送第一画面编码数据，减小数据传输量，提高数据传输速度，保证视频通话顺畅。

可选的，第一通话端分别对第一目标视频画面以及第一通话音频进行编码，或者，第一通话端直接对包含第一目标视频画面的通话视频进行编码。本申请实施例对此不作限定。

步骤407，向第二通话端发送包含第一画面编码数据的第一视频通话数据。

第一通话端向第二通话端发送包含第一画面编码数据的第一视频通话数据，以使第二通话端对第一画面编码数据进行解码，得到第一目标视频画面，从而显示第一目标视频画面。

相对的，第二通话端若启用背景替换功能，则对第二原始视频画面进行画面分割，得到第二原始前景图像和第二原始背景图像，并将第二原始背景图像替换为第二目标背景图像，并将融合第二原始前景图像以及第二目标背景图像得到的第二目标视频画面发送至第一通话端，以使第一通话端显示第二目标视频画面，其中，第二原始视频画面是第二通话端通过摄像头采集得到的视频画面，第二原始前景图像是包含前景内容的图像，第二原始背景图像为包含第二原始视频画面中除前景以外的内容的图像。

示意性的，图5示出了一种视频通话系统的框架图。其中，视频通话发送端包含摄像模块501，用于采集第一原始视频画面；背景分割模块502，用于对第一原始视频画面进行画面分割，得到第一原始前景图像以及第一原始背景图像；背景替换模块503，用于将第一原始背景图像替换为第一目标背景图像，其中，背景替换模块503包括背景确定模块504，用于将第一原始背景图像替换为第一目标VR场景对应的第一目标背景图像；图像合成模块505，用于融合第一原始前景图像以及第一目标背景图像，得到第一目标视频画面；视频编码模块506，用于对第一目标视频画面进行编码，并通过英特网向第二通话端发送第一视频通话数据。视频通话接收端包含视频解码模块507，用于接收第一视频通话数据，并解码得到第一目标视频画面；显示模块508，用于显示第一目标视频画面。

本申请实施例中，基于摄像头采集第一原始视频画面时的拍摄姿态，基于第一目标VR场景和/或目标AR模型确定第一目标背景，以使第二通话端所显示的第一目标视频画面中，第一目标背景的变化情况符合第一通话端在现实环境中采集到的背景的变化情况，能够提高第一目标视频画面的真实性；在第一通话端完成对第一原始前景图像以及第一目标背景图像的融合，使第二通话端直接基于第一视频通话数据得到第一目标视频画面，降低第二通话端的数据处理量。

上述实施例中，第一目标视频画面的生成过程由第一通话端执行，第二通话端能够直接接收到完成的第一目标视频画面。在另一种可能的实施方式中，为了减小数据传输量，避免画面延迟，第一通话端仅发送第一原始前景图像的编码数据以及用于指示第二通话端生成第一目标背景画面的数据。图6示出了本申请另一个示例性实施例提供的视频通话方法的流程图。本实施例以该方法用于图1所示的第一通话端为例进行说明，该方法包括如下步骤：

步骤601，响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到第一原始视频画面的第一原始前景图像和第一原始背景图像。

步骤602，获取摄像头采集第一原始视频画面时的拍摄姿态。

步骤603，基于拍摄姿态从第一目标VR场景和/或现实场景中确定第一目标背景。

步骤601至步骤603的具体实施方式可以参考上述步骤401至步骤403，本申请实施例在此不再赘述。

步骤604，对第一原始前景图像进行编码，得到第一前景编码数据。

在一种可能的实施方式中，第一原始前景图像与第一目标背景图像的融合过程在第二通话端完成。

第一通话端在完成画面分割以及确定出第一目标背景后，只需发送第一前景编码数据，使第二通话端对第一前景编码数据进行解码，获取到第一原始前景图像，以及基于第一目标背景生成并发送背景生成指令，使第二通话端基于背景生成指令生成第一目标背景图像。

相比于第一通话端完成画面融合并发送第一目标视频画面的方式，本申请实施例的第一通话端仅发送第一原始前景图像的编码以及背景生成指令，能够降低数据传输对带宽的要求，确保背景替换不会导致视频通话的延迟。

步骤605，向第二通话端发送第一视频通话数据。

其中，当第一目标背景为VR背景时，第一视频通话数据中包含第一前景编码数据、第一目标VR场景的第一场景标识以及第一目标背景在第一目标VR场景中的第一目标方位；当第一目标背景为AR背景时，第一视频通话数据中包含第一前景编码数据、第一背景编码数据、目标AR模型的模型标识以及目标AR模型在第一目标背景中的第二目标方位；当第一目标背景为混合背景时，第一视频通话数据中包含第一前景编码数据、第一场景标识、第一目标方位、模型标识以及第二目标方位，第一背景编码数据基于第一原始背景图像进行编码得到。

在一种可能的实施方式中，第一通话端对第一原始前景图像进行编码生成第一前景编码数据，第二通话端接收到第一前景编码数据后对其进行解码，得到第一原始前景图像。对于第一目标背景，第一通话端仅将场景标识、目标方位、模型标识等用于指示第一目标背景生成方式的信息发送至第二通话端，由第二通话端负责根据该信息构建模型并采集得到第一目标背景图像，相比于直接传输第一目标背景图像的编码数据，能够降低背景替换功能对传输带宽的要求。

当第一目标背景为VR背景时，为了使第二通话端能够基于第一视频通话数据确定第一目标背景，并生成第一目标背景图像，背景生成指令中包含第一目标VR场景的第一场景标识以及第一目标背景在第一目标VR场景中的第一目标方位。第二通话端基于第一场景标识构建第一目标VR场景，并基于第一目标背景在第一目标VR场景中的第一目标方位，从第一目标VR场景中获取第一目标背景图像，进而基于解码得到的第一原始前景图像生成第一目标视频画面。

视频通话应用程序中提供有至少一个VR场景，且各个VR场景均对应有唯一的场景标识。

可选的，第一通话端在通话过程中始终向第二通话端发送第一场景标识，或者，在第一次发送第一视频通话数据时发送第一场景标识。

相应的，当第一目标背景为AR背景时，第一通话端将第一前景编码数据、第一背景编码数据目标AR模型的模型标识以及目标AR模型在第一目标背景中的第二目标方位发送至第二通话端，使得第二通话端对第一前景编码数据进行解码得到第一原始前景图像，对第一背景编码数据进行解码得到第一原始背景图像，并基于模型标识和第二目标方位构建AR模型，将第一原始背景图像中的背景主体替换为AR模型得到第一目标背景图像，进而结合第一原始前景图像和第一目标背景图像生成第一目标视频画面；当第一目标背景为混合背景时，第一通话端将第一前景编码数据、第一场景标识、第一目标方位、模型标识以及第二目标方位发送至第二通话端，使得第二通话端对第一前景编码数据进行解码得到第一原始前景图像，基于第一场景标识、第一目标方位、模型标识以及第二目标方位，构建VR场景和AR模型并通过虚拟相机采集得到第一目标背景图像，进而结合第一原始前景图像和第一目标背景图像生成第一目标视频画面。

示意性的，图7示出了一种视频通话系统的框架图。其中，视频通话发送端包含摄像模块701，用于采集第一原始视频画面；背景分割模块702，用于对第一原始视频画面进行画面分割，得到第一原始前景图像以及第一原始背景图像；背景替换模块703，用于确定第一目标背景，其中，背景替换模块703包含背景确定模块704，用于基于第一目标VR场景和/或目标AR模型确定第一目标背景；视频编码模块705，用于对第一原始前景图像进行编码，生成第一前景编码数据并发送至第二通话端；指令生成模块706，用于生成背景生成指令并发送至第二通话端。第二通话端包含视频解码模块707，用于对第一前景编码数据进行解码，得到第一原始前景图像；指令执行模块708，用于执行背景生成指令，生成第一目标背景图像；图像合成模块709，用于对第一原始前景图像与第一目标背景图像进行融合，生成第一目标视频画面；显示模块710，用于显示第一目标视频画面。

本申请实施例中，第一通话端确定第一目标背景后，向第二通话端发送第一前景图像数据、第一目标VR场景的第一场景标识以及第一目标背景在第一目标VR场景中的第一目标方位，第一通话端发送的数据仅包含第一原始前景图像的编码数据，以及其它用于指示第二通话端生成第一目标背景图像的指令数据，降低了对带宽的要求，确保背景替换不会导致视频通话的延迟。

相应地，当第一通话端接收到第二通话端发送的第二视频通话数据时，基于第二视频通话数据生成第二目标视频画面并进行显示。图8示出了本申请另一个示例性实施例提供的视频通话方法的流程图。本实施例以该方法用于图1所示的第一通话端且第一目标背景为VR背景为例进行说明，该方法包括如下步骤：

步骤801，接收第二通话端发送的第二视频通话数据，第二视频通话数据中包含第二前景编码数据、第二场景标识以及第三目标方位。

视频通话过程中，第一通话端向第二通话端发送己方的第一通话视频数据，同样，第二通话端也需要向第一通话端发送己方的第二通话视频数据。若第二通话端启用背景替换功能，则第一通话端需要相应地基于第二通话视频数据生成第二目标视频画面。第二视频通话数据中包含第二前景编码数据、第二场景标识以及第三目标方位，其中，第二前景编码数据为第二通话端所采集到的第二原始视频画面中第二原始前景图像的编码数据，第二场景标识为第二通话端对应的第二目标VR场景的场景表示，第三目标方位为第二通话端确定的第二目标背景在第二目标VR场景中的方位。

步骤802，对第二前景编码数据进行解码得到第二原始前景图像，并控制虚拟相机按照第三目标方位从第二场景标识对应的第二目标VR场景中拍摄得到第二目标背景图像。

在一种可能的实施方式中，第一通话端从第二视频通话数据中获取第二前景编码数据，解码得到第二原始前景图像，并基于背景生成指令，先构建第二场景标识对应的第二目标VR场景，然后基于第三目标方位控制虚拟相机从第二场景标识对应的第二目标VR场景中拍摄得到第二目标背景图像。

步骤803，对第二原始前景图像以及第二目标背景图像进行融合得到第二目标视频画面。

第一通话端得到第二原始前景图像以及第二目标背景图像后，对二者进行融合，得到第二目标视频画面。

步骤804，显示第二目标视频画面。

本申请实施例中，接收第二通话端发送的第二视频通话数据，从而基于第二视频通话数据构建第二通话端对应的第二目标VR场景，进而获取第二目标背景图像，融合得到第二原始视频画面中的前景处于第二目标VR场景的第二目标视频画面，且降低了对带宽的要求，确保背景替换不会导致视频通话的延迟。

在一种可能的实施方式中，用户在进行视频通话之前，可以通过交互操作设置通话背景。图9示出了本申请另一个示例性实施例提供的视频通话方法的流程图。本实施例以该方法用于图1所示的第一通话端为例进行说明，该方法包括如下步骤：

步骤901，响应于视频通话启用前接收到VR背景替换操作，基于VR背景替换操作确定第一目标VR场景。

开始视频通话之前，用户可以通过应用程序设置通话背景。当接收到VR背景替换操作时，第一通话端基于VR背景替换操作确定第一目标VR场景。

在一种可能的实施方式中，应用程序提供了两种构建第一目标VR场景的方式，步骤901还包括如下步骤：

步骤901a，响应于对自动VR建模功能的开启操作，从VR场景库中随机确定第一目标VR场景。

在一种可能的实施方式中，开发人员预先设计多种VR场景，存储在VR场景库中，该VR场景库可以存储在安装有应用程序的终端中，也可以存储在云服务器中。当接收到对自动VR建模功能的开启操作时，第一通话端从VR场景库中随机确定第一目标VR场景。

示意性的，第一通话端显示应用程序中的背景设置界面，该背景设置界面中包含自动VR建模控件。当接收到对自动VR建模控件的触发操作时，第一通话端确定接收到对自动VR建模功能的开启操作。

步骤901b，响应于对预设VR建模功能的开启操作，显示VR场景展示界面，VR场景展示界面内显示有VR场景库中各个VR场景的场景标识。

步骤901c，响应于对目标VR场景标识的选择操作，将目标VR场景标识对应的VR场景确定为第一目标VR场景。

在另一种可能的实施方式中，用户可以主动指定VR场景。

例如，第一通话端显示应用程序中的背景设置界面，该背景设置界面中包含预设VR建模控件，当接收到对预设VR建模控件的触发操作时，第一通话端确定接收到对预设VR建模功能的开启操作，并显示VR场景展示界面，显示VR场景库中各个VR场景的场景标识(例如场景名称、场景缩略图等)。当接收到对目标VR场景标识的选择操作，将目标VR场景标识对应的VR场景确定为第一目标VR场景。

值得注意的是，步骤901a与步骤901b至步骤901c之间为并列关系。

步骤902，响应于视频通话启用前接收到AR主体替换操作，基于AR主体替换操作确定待替换主体以及目标AR模型。

在一种可能的实施方式中，用户除了可以将通话背景进行整体替换，替换为VR场景，还可以对第一原始背景图像中的单个主体进行替换，替换为AR模型。

示意性的，用户可以在视频通话开始前设置将水杯替换为卡通形象，该卡通形象为AR模型，则第一通话端在视频通话的过程中，若采集到的原始背景图像中存在水杯，将水杯替换为用户所指定的卡通形象。

示意性的，用户可以通过输入操作在背景设置界面中输入待替换主体，并通过选择操作从AR模型展示界面中选择目标AR模型。

步骤903，响应于通话背景替换功能处于启用状态，将第一原始视频画面对应的数据输入物体检测算法，得到主体识别结果，主体识别结果用于指示第一原始视频画面中的主体以及主体所在位置。

在一种可能的实施方式中，视频通话应用程序内置有物体检测算法，用于识别第一原始视频画面中的物体。

第一通话端将第一原始视频画面的颜色编码数据输入物体检测算法，使物体检测算法基于颜色编码数据进行主体识别。示意性的，颜色编码数据数据为YUV数据、NV21数据或者RGB数据等。

步骤904，基于主体识别结果对第一原始视频画面进行分割，得到第一原始前景图像和第一原始背景图像，第一原始前景图像中包含主体中的人像。

在一种可能的实施方式中，视频通话应用程序内置有背景分割深度学习算法，该背景分割深度学习算法同样基于颜色编码数据对第一原始视频画面进行分割。

示意性的，第一通话端基于主体识别结果，将主题中的人像区域作为前景，其余部分作为背景，对第一原始视频画面进行分割。

步骤905，确定视频通话过程中采用的第一目标背景。

步骤905的具体实施方式可以参考上述步骤202，本申请实施例在此不再赘述。

步骤906，响应于第一原始背景图像中存在待替换主体，确定待替换主体在第一原始背景图像中的主体位置。

在一种可能的实施方式中，若主体识别结果中指示第一原始背景图像中存在用户所指定的待替换主体，则确定待替换主体在第一原始背景图像中的主体位置。

步骤907，基于主体位置，确定目标AR模型在第一目标背景中的模型位置。

在一种可能的实施方式中，第一通话端将主体位置确定为模型位置，并基于主体尺寸确定目标AR模型的尺寸，使得目标AR模型能够完全覆盖待替换主体所在的区域。

可选的，当第一通话端既将第一原始背景图像整体替换为第一目标VR场景对应的第一目标背景图像，又将待替换主体替换为目标AR模型时，可能存在替换后的目标AR模型与第一目标VR场景中的VR模型产生模型重叠的情况。因此为了使画面更加协调，第一通话端基于第一目标VR场景以及主体位置，对协调确定模型位置，使目标AR模型在第一目标VR场景中的位置更加合理。

步骤908，基于第一原始前景图像、目标AR模型以及模型位置，向第二通话端发送视频通话数据，第二通话端所显示的第一目标视频画面中，目标AR模型位于模型位置处。

在一种可能的实施方式中，用户可以选择仅开启AR主体替换功能，并指定背景中的待替换主体，实现将现实环境中的部分内容替换为AR模型的画面效果。第一通话端基于第一原始前景图像、目标AR模型以及模型位置，进行画面融合得到第一目标视频画面，并将第一目标视频画面的编码数据发送至第二通话端，具体的，第一通话端通过虚拟相机拍摄目标AR模型，将拍摄得到的AR图像与第一原始背景图像融合得到AR背景，即第一目标背景图像，然后融合第一原始前景图像以及第一目标背景图像，得到第一目标视频画面。或者，第一通话端将第一原始前景图像的编码数据、目标AR模型的模型标识以及模型位置发送至第二通话端，以使第二通话端完成画面融合生成并显示第一目标视频画面。

在另一种可能的实施方式中，用户还可以同时开启VR背景替换以及AR主体替换功能，此时第一通话端基于第一原始前景图像、第一目标VR场景、第一目标方位目标AR模型以及模型位置，向第二通话端发送视频通话数据，以达到VR与AR结合的画面效果。

示意性的，图10示出了一种背景替换过程的示意图。用户在视频通话前，通过交互操作设置将“床”替换为“AR企鹅”，并开启自动VR建模功能，选择“热带丛林”作为第一目标VR场景。第一通话端采集到第一原始视频画面1001后，识别出第一原始背景图像中存在“床”1002，则通过虚拟相机拍摄“热带丛林”VR场景，并在“床”1002对应的位置处添加“AR企鹅”1004，生成结合有VR场景以及AR模型的第一目标背景图像，进而融合第一目标背景图像和第一原始前景图像生成第一目标视频图像1003。

在另一种可能的实施方式中，若用户开启AR主体替换功能，但未指定待替换主体以及目标AR模型，则第一通话端自行对第一原始背景图像中的背景主体与AR模型库中的AR模型进行匹配，从而将识别到的主体替换为AR模型。

本申请实施例中，除了对第一原始视频画面进行整体背景替换之外，还能够识别第一原始视频画面中的主体，并基于用户操作将第一原始背景图像中的待替换主体替换为AR模型，用户可以单独对现实环境中的物体进行替换，从而保证用户隐私，并提高视频通话功能的使用率。

在一种可能的应用场景中，用户在视频通话开始前设置VR背景替换以及AR模型替换。视频通话开始时，第一通话端基于用户操作构建第一目标VR场景，该第一目标VR场景为360°的VR场景，营造出第一通话端所采集到的前景处于360°VR立体世界中的效果；同时，第一通话端基于用户操作将第一原始背景画面中的待替换主体替换为目标AR模型，并实现第一通话端所采集到的前景与该目标AR模型的交互。

例如，第一通话端的用户坐在卧室的椅子上与第二通话端的用户进行视频通话，视频通话开始前，第一通话端的用户启用VR背景替换以及AR主体替换功能，并指定将“椅子”替换为AR模型(例如AR沙发)，则通过背景替换后，第二通话端所显示的第一目标视频画面的画面内容为第一通话端的用户处于第一目标VR场景中，并且坐在目标AR模型上进行视频通话。

图11示出了本申请一个示例性实施例提供的视频通话过程的流程图，该流程包括如下步骤：

步骤1101，视频通话配置读取。

步骤1102，判断是否启用背景替换功能。若是，则执行步骤1103，若否，则直接跳转至步骤1112。

步骤1103，启动背景分割模块。

步骤1104，启动背景替换模块。

步骤1105，判断是否自动VR建模。若是，则跳转至步骤1107，若否，则执行步骤1106。

步骤1106，判断是否预设VR模型。若是，则跳转至步骤1108，若否，则跳转至步骤1112。

步骤1107，自动VR建模。步骤1107执行完成后，跳转至步骤1109。

步骤1108，生成预设VR模型。步骤1108执行完成后，跳转至步骤1109。

步骤1109，判断是否背景主体替换。若是，则执行步骤1110；若否，则执行步骤1111。

步骤1110，将背景主体替换为AR模型。步骤1110执行完毕后，继续执行步骤1111。

步骤1111，生成第一目标视频画面。

步骤1112，视频编码。

图12示出了本申请一个示例性实施例提供的视频通话装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

画面分割模块1201，用于响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到所述第一原始视频画面的第一原始前景图像；

第一确定模块1202，用于确定视频通话过程中采用的第一目标背景，所述第一目标背景是基于第一目标VR场景生成的VR背景，或基于现实场景和目标AR模型生成的AR背景，或基于所述第一目标VR场景以及所述目标AR模型生成的混合背景，其中VR场景通过VR建模得到；

发送模块1203，用于基于所述第一原始前景图像和所述第一目标背景，向第二通话端发送第一视频通话数据，以便所述第二通话端基于所述第一视频通话数据显示第一目标视频画面，所述第一目标视频画面由所述第一原始前景图像以及所述第一目标背景对应的第一目标背景图像融合得到。

可选的，所述第一确定模块1202，包括：

第一获取单元，用于获取所述摄像头采集所述第一原始视频画面时的拍摄姿态；

第一确定单元，用于基于所述拍摄姿态从所述第一目标VR场景和/或所述现实场景中确定所述第一目标背景。

可选的，所述发送模块1203，包括：

拍摄单元，用于控制所述第一目标VR场景中的虚拟相机和/或用于拍摄所述目标AR模型的虚拟相机，按照所述拍摄姿态对所述第一目标背景进行拍摄，得到所述第一目标背景图像；

画面融合单元，用于对所述第一目标背景图像与所述第一原始前景图像进行融合，得到所述第一目标视频画面；

第一编码单元，用于对所述第一目标视频画面进行编码，得到第一画面编码数据；

第一发送单元，用于向所述第二通话端发送包含所述第一画面编码数据的所述第一视频通话数据。

可选的，所述发送模块1203，包括：

第二编码单元，用于对所述第一原始前景图像进行编码，得到第一前景编码数据；

第二发送单元，用于向所述第二通话端发送所述第一视频通话数据，所述第一视频通话数据中包含所述第一前景编码数据、所述第一目标VR场景的第一场景标识以及所述第一目标背景在所述第一目标VR场景中的第一目标方位，或包含所述第一前景编码数据、目标AR模型的模型标识以及所述目标AR模型在所述第一目标背景中的第二目标方位，或包含所述第一前景编码数据、所述第一场景标识、所述第一目标方位、所述模型标识以及所述第二目标方位。

可选的，所述第一目标背景为所述VR背景，所述装置还包括：

接收模块，用于接收所述第二通话端发送的第二视频通话数据，所述第二视频通话数据中包含第二前景编码数据、第二场景标识以及第三目标方位，所述第二前景编码数据为所述第二通话端所采集到的第二原始视频画面中第二原始前景图像的编码数据，所述第二场景标识为所述第二通话端对应的第二目标VR场景的场景表示，所述第三目标方位为所述第二通话端确定的第二目标背景在所述第二目标VR场景中的方位；

解码模块，用于对所述第二前景编码数据进行解码得到第二原始前景图像，并控制所述虚拟相机按照所述第三目标方位从所述第二场景标识对应的第二目标VR场景中拍摄得到第二目标背景图像；

画面融合模块，用于对所述第二原始前景图像以及所述第二目标背景图像进行融合得到第二目标视频画面；

显示模块，用于显示所述第二目标视频画面。

可选的，所述画面分割模块1201，包括：

输入模块，用于响应于所述通话背景替换功能处于启用状态，将所述第一原始视频画面对应的数据输入物体检测算法，得到主体识别结果，所述主体识别结果用于指示所述第一原始视频画面中的主体以及主体所在位置；

画面分割单元，用于基于所述主体识别结果对所述第一原始视频画面进行分割，得到所述第一原始前景图像和第一原始背景图像，所述第一原始前景图像中包含所述主体中的人像。

可选的，所述第一目标背景为所述混合背景，所述方法还包括：

第二确定模块，用于响应于所述第一原始背景图像中存在待替换主体，确定所述待替换主体在所述第一原始背景图像中的主体位置；

第三确定模块，用于基于所述主体位置，确定目标AR模型在所述第一目标背景中的模型位置；

所述发送模块1203，包括：

第三发送单元，用于基于所述第一原始前景图像、所述目标AR模型以及所述模型位置，向所述第二通话端发送所述视频通话数据，所述第二通话端所显示的所述第一目标视频画面中，所述目标AR模型位于所述模型位置处。

可选的，所述方法还包括：

第四确定模块，用于响应于视频通话启用前接收到VR背景替换操作，基于所述VR背景替换操作确定所述第一目标VR场景；

第五确定模块，用于响应于视频通话启用前接收到AR主体替换操作，基于所述AR主体替换操作确定所述待替换主体以及所述目标AR模型。

可选的，所述第四确定模块，包括：

第二确定单元，用于响应于对自动VR建模功能的开启操作，从VR场景库中随机确定所述第一目标VR场景；

第三确定单元，用于响应于对预设VR建模功能的开启操作，显示VR场景展示界面，所述VR场景展示界面内显示有所述VR场景库中各个VR场景的场景标识；响应于对目标VR场景标识的选择操作，将所述目标VR场景标识对应的VR场景确定为所述第一目标VR场景。

本申请实施例中，当用户启用通话背景替换功能进行视频通话时构建VR场景和/或AR模型，将第一原始视频画面进行分割，并将分割得到的第一原始背景图像替换为第一目标背景，使得第二通话端所播放的视频画面能够营造出前景内容位于VR场景中、前景内容以及AR模型位于现实场景中，或者前景内容位于AR与VR结合的混合场景中的效果，既能够隐藏第一通话端所采集到的现实场景，保护用户的隐私，提高视频通话的安全性，并提高视频通话使用率。

请参考图13，其示出了本申请一个示例性实施例提供的终端1300的结构方框图。该终端1300可以是智能手机、平板电脑、电子书、便携式个人计算机等安装并运行有应用程序的电子设备。本申请中的终端1300可以包括一个或多个如下部件：处理器1320、存储器1310和屏幕1330。

处理器1320可以包括一个或者多个处理核心。处理器1320利用各种接口和线路连接整个终端1300内的各个部分，通过运行或执行存储在存储器1310内的指令、程序、代码集或指令集，以及调用存储在存储器1310内的数据，执行终端1300的各种功能和处理数据。可选地，处理器1320可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1320可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责屏幕1330所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1320中，单独通过一块通信芯片进行实现。

存储器1310可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器1310包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1310可用于存储指令、程序、代码、代码集或指令集。存储器1310可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端1300在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

屏幕1330可以为电容式触摸显示屏，该电容式触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在终端1300的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端1300的结构并不构成对终端1300的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端1300中还包括射频电路、拍摄组件、传感器、音频电路、无线保真(Wireless Fidelity，WiFi)组件、电源、蓝牙组件等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的视频通话方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频通话方法，其特征在于，所述方法应用于第一通话端，所述方法包括：

获取所述摄像头采集所述第一原始视频画面时的拍摄姿态；

基于所述拍摄姿态从第一目标VR场景和/或现实场景中确定第一目标背景，所述第一目标背景是基于第一目标虚拟现实VR场景生成的VR背景，或基于现实场景和目标增强现实AR模型生成的AR背景，或基于所述第一目标VR场景以及所述目标AR模型生成的混合背景，其中VR场景通过VR建模得到；

对所述第一原始前景图像进行编码，得到第一前景编码数据；

向第二通话端发送第一视频通话数据，以便所述第二通话端基于所述第一视频通话数据显示第一目标视频画面，所述第一目标视频画面由所述第一原始前景图像以及所述第一目标背景对应的第一目标背景图像融合得到，所述第一目标背景图像由虚拟相机按照所述拍摄姿态对所述第一目标背景进行拍摄得到，所述第一视频通话数据中包含所述第一前景编码数据、所述第一目标VR场景的第一场景标识以及所述第一目标背景在所述第一目标VR场景中的第一目标方位，或包含所述第一前景编码数据、第一背景编码数据、所述目标AR模型的模型标识以及所述目标AR模型在所述第一目标背景中的第二目标方位，或包含所述第一前景编码数据、所述第一场景标识、所述第一目标方位、所述模型标识以及所述第二目标方位，所述第一背景编码数据基于第一原始背景图像进行编码得到；

接收所述第二通话端发送的第二视频通话数据，所述第二视频通话数据中包含第二前景编码数据、第二场景标识以及第三目标方位，所述第二前景编码数据为所述第二通话端所采集到的第二原始视频画面中第二原始前景图像的编码数据，所述第二场景标识为所述第二通话端对应的第二目标VR场景的场景表示，所述第三目标方位为所述第二通话端确定的第二目标背景在所述第二目标VR场景中的方位；

对所述第二前景编码数据进行解码得到第二原始前景图像，并控制所述虚拟相机按照所述第三目标方位从所述第二场景标识对应的第二目标VR场景中拍摄得到第二目标背景图像；

对所述第二原始前景图像以及所述第二目标背景图像进行融合得到第二目标视频画面；

显示所述第二目标视频画面。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

控制所述第一目标VR场景中的虚拟相机和/或用于拍摄所述目标AR模型的虚拟相机，按照所述拍摄姿态对所述第一目标背景进行拍摄，得到所述第一目标背景图像；

对所述第一目标背景图像与所述第一原始前景图像进行融合，得到所述第一目标视频画面；

对所述第一目标视频画面进行编码，得到第一画面编码数据；

向所述第二通话端发送包含所述第一画面编码数据的所述第一视频通话数据。

3.根据权利要求1至2任一所述的方法，其特征在于，所述响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割，得到所述第一原始视频画面的第一原始前景图像，包括：

响应于所述通话背景替换功能处于启用状态，将所述第一原始视频画面对应的数据输入物体检测算法，得到主体识别结果，所述主体识别结果用于指示所述第一原始视频画面中的主体以及主体所在位置；

基于所述主体识别结果对所述第一原始视频画面进行分割，得到所述第一原始前景图像和第一原始背景图像，所述第一原始前景图像中包含所述主体中的人像。

4.根据权利要求3所述的方法，其特征在于，所述基于所述主体识别结果对所述第一原始视频画面进行分割，得到所述第一原始前景图像和第一原始背景图像之后，所述方法还包括：

响应于所述第一原始背景图像中存在待替换主体，确定所述待替换主体在所述第一原始背景图像中的主体位置；

基于所述主体位置，确定目标AR模型在所述第一目标背景中的模型位置；

所述基于所述第一原始前景图像和所述第一目标背景，向第二通话端发送视频通话数据，包括：

基于所述第一原始前景图像、所述目标AR模型以及所述模型位置，向所述第二通话端发送所述视频通话数据，所述第二通话端所显示的所述第一目标视频画面中，所述目标AR模型位于所述模型位置处。

5.根据权利要求4所述的方法，其特征在于，所述响应于通话背景替换功能处于启用状态，对摄像头采集到的第一原始视频画面进行画面分割之前，所述方法还包括：

响应于视频通话启用前接收到VR背景替换操作，基于所述VR背景替换操作确定所述第一目标VR场景；

响应于视频通话启用前接收到AR主体替换操作，基于所述AR主体替换操作确定所述待替换主体以及所述目标AR模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述VR背景替换操作确定所述第一目标VR场景，包括：

响应于对自动VR建模功能的开启操作，从VR场景库中随机确定所述第一目标VR场景；

响应于对预设VR建模功能的开启操作，显示VR场景展示界面，所述VR场景展示界面内显示有所述VR场景库中各个VR场景的场景标识；响应于对目标VR场景标识的选择操作，将所述目标VR场景标识对应的VR场景确定为所述第一目标VR场景。

7.一种视频通话装置，其特征在于，所述装置包括：

第一确定模块，用于获取所述摄像头采集所述第一原始视频画面时的拍摄姿态；基于所述拍摄姿态从第一目标VR场景和/或现实场景中确定第一目标背景，所述第一目标背景是基于第一目标VR场景生成的VR背景，或基于现实场景和目标AR模型生成的AR背景，或基于所述第一目标VR场景以及所述目标AR模型生成的混合背景，其中VR场景通过VR建模得到；

发送模块，用于对所述第一原始前景图像进行编码，得到第一前景编码数据；向第二通话端发送第一视频通话数据，以便所述第二通话端基于所述第一视频通话数据显示第一目标视频画面，所述第一目标视频画面由所述第一原始前景图像以及所述第一目标背景对应的第一目标背景图像融合得到，所述第一目标背景图像由虚拟相机按照所述拍摄姿态对所述第一目标背景进行拍摄得到，所述第一视频通话数据中包含所述第一前景编码数据、所述第一目标VR场景的第一场景标识以及所述第一目标背景在所述第一目标VR场景中的第一目标方位，或包含所述第一前景编码数据、第一背景编码数据、所述目标AR模型的模型标识以及所述目标AR模型在所述第一目标背景中的第二目标方位，或包含所述第一前景编码数据、所述第一场景标识、所述第一目标方位、所述模型标识以及所述第二目标方位，所述第一背景编码数据基于第一原始背景图像进行编码得到；

显示模块，用于显示所述第二目标视频画面。

8.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的视频通话方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至6任一所述的视频通话方法。