CN117676065A

CN117676065A - 视频通话方法及电子设备

Info

Publication number: CN117676065A
Application number: CN202210992386.3A
Authority: CN
Inventors: 李一扬
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2024-03-08

Abstract

本申请实施例提供了一种视频通话方法及电子设备。该方法包括：电子设备与另一电子设备进行视频通话的过程中，电子设备可基于接收到的用户操作，将用户指定的融合对象的图像融合到本端摄像头采集到的视频图像中，并显示融合后的视频图像。其中，融合对象的图像在另一电子设备的摄像头采集的视频图像中。这样，电子设备可基于用户需求，将用户指定的对象融合到视频图像中，从而实视频通话用户之间的线上互动，提升视频通话的实用性以及用户使用体验。

Description

视频通话方法及电子设备

技术领域

本申请实施例涉及终端设备领域，尤其涉及一种视频通话方法及电子设备。

背景技术

随着终端技术领域的技术发展，终端所能提供的功能越来越多，其应用场景也越来越广泛。多个用户之间可以通过终端的视频功能进行视频通话，以进行线上视频交流。但是，目前的视频通话方式较为单一，影响用户使用体验。

发明内容

本申请实施例提供一种视频通话方法及电子设备。在该方法中，电子设备与另一电子设备进行视频通话的过程中，电子设备可以根据用户需求，显示包括指定融合对象的图像的融合视频图像，以实现不同用户在视频通话过程中的线上互动，提升用户使用体验。

第一方面，本申请实施例提供一种视频通话方法。该方法应用于第一电子设备，第一电子设备与第二电子设备进行视频通话。该方法包括：第一电子设备在第一视频显示窗口中显示第二电子设备的摄像头采集的第一视频图像，并且，第一电子设备在第二视频显示窗口中显示第一电子设备的摄像头采集的第二视频图像。第一电子设备接收对第一视频图像中的第一融合对象的第一用户操作。第一电子设备基于第一用户操作，将第一融合对象的图像融合到第二视频图像中，得到第一视频融合图像。第一电子设备在第一视频显示窗口中显示第一视频融合图像。这样，电子设备可基于用户需求，将正在进行视频通话时显示的对端画面中的指定对象，融合到本端视频画面中，可实现线上虚拟互动，提升视频通话的实用性。

示例性的，视频图像是包括多个图像的动态图像。

示例性的，各视频显示窗口的尺寸、位置可根据实际需求设置，例如可以是默认值，也可以由用户手动调整，本申请不做限定。

示例性的，视频图像中可以包括人物、动物、景物等图像。

在一种可能的实现方式中，第一电子设备接收对第一视频图像中的第一融合对象的第一用户操作，包括：第一电子设备响应于接收到的第二用户操作，显示视频融合选项。第一电子设备响应于接收到的点击视频融合选项的第三用户操作，显示至少一个待融合选项。第一电子设备接收点击第一融合对象对应的待融合选项的第一用户操作。可以理解为，第一用户操作包括多个子操作的组合。当然，第一用户操作也可以理解为是上文所述的第三用户操作，本申请不做限定。这样，电子设备可以提供多种选择，以供用户选择期望的融合对象。

在一种可能的实现方式中第一电子设备响应于接收到的点击视频融合选项的第二子操作，显示至少一个待融合选项，包括：第一电子设备基于第三用户操作，对第二视频图像进行实例分割，得到至少一个实例。至少一个待融合选项与至少一个实例一一对应。这样，电子设备进行实例分割后，可以显示对应的选项，以供用户选择指定的融合对象。

在一种可能的实现方式中，至少一个待融合选项为文本选项。示例性的，多个文本选项可以以列表的方式呈现，以供用户选择。

在一种可能的实现方式中，至少一个待融合选项为至少一个实例；其中，每个实例的颜色不相同。

在一种可能的实现方式中，第一电子设备基于第一用户操作，将第一融合对象的图像融合到第二视频图像中，得到第一视频融合图像，包括：第一电子设备将第一融合对象的图像，叠加到第二视频图像中，得到第一视频融合图像。这样，电子设备可以实现视频用户的线上交互，使得用户可以通过融合视频图像进行互动。

在一种可能的实现方式中，第一融合对象的图像在第一视频融合图像中的位置，与第一融合对象的图像在第一视频图像中的位置相同，且第一融合对象的图像在第一视频融合图像中的位置随着第一融合对象的图像在第一视频图像中的位置变化。这样，用户可以基于图像中的融合位置，变化自己的拍摄位置，以改变在融合图像图像中的位置，从而实现互动效果。

在一种可能的实现方式中，第一融合对象的图像在第一视频融合图像中的尺寸，与第一融合对象的图像在第一视频图像中的尺寸相同。这样，电子设备可以按照预设的位置关系，对图像进行融合。

在一种可能的实现方式中，方法还包括：第一电子设备响应于接收到的第四用户操作，调整第一融合对象的图像在第一视频融合图像中的尺寸。这样，电子设备可提供可调节功能，使得用户可以任意调节图像在融合图像中的尺寸、位置等参数。

在一种可能的实现方式中，在第一电子设备与第二电子设备进行视频通话的过程中，第一电子设备向第二电子设备发送第二视频图像；第一电子设备响应于接收到的第一操作，确定第一融合对象之后，包括：向第二电子设备发送融合指示信息，融合指示信息用于指示第二电子设备将第一融合对象的图像融合到第一视频图像中，得到并显示第一视频融合图像。这样，电子设备通过向第二电子设备发送融合指示信息，使得第二电子设备可以在本端侧进行视频融合，并显示视频融合图像。第二电子设备的用户可以基于视频融合图像，与第一电子设备的用户进行线上互动。

在一种可能的实现方式中，第第一电子设备基于第一用户操作，将第一融合对象的图像融合到第二视频图像中，得到第一视频融合图像之后，方法还包括：第一电子设备向第二电子设备发送第一视频融合图像。这样，通过第一电子设备将融合好的视频发送给第二电子设备的方式，可以有效减轻第二电子设备的计算压力，降低系统功耗。

在一种可能的实现方式中，第一电子设备的显示窗口中包括拍照选项和/或录制选项；其中，拍照选项用于指示保存第一视频显示窗口中当前显示的第一图像，第一图像属于第一视频融合图像；录制选项用于指示保存第一视频融合图像。这样，电子设备可以将视频融合图像保存，以供用户在视频通话结束后查看保存的视频。

在一种可能的实现方式中，方法还包括：第一电子设备接收对第一视频图像中的第二融合对象的第五用户操作；第二融合对象与第一融合对象不同；第一电子设备基于第五用户操作，将第二融合对象的图像融合到第二视频图像中，得到第二视频融合图像；第一电子设备在第一视频显示窗口中显示第二视频融合图像。这样，在视频融合过程中，电子设备可以随时根据用户需求，更换融合对象。

在一种可能的实现方式中，第一融合对象包括多个对象。这样，电子设备可以基于用户的需求，同时将多个对象融合到视频中。

在一种可能的实现方式中，方法还包括：第一电子设备在第二视频显示窗口显示第一视频图像，和/或，第一电子设备在第三视频显示窗口显示第二视频图像。这样，用户还可以通过第二视频显示窗口和第三视频显示窗口观察到本端与对端的摄像头采集到的图像。

第二方面，本申请实施例提供一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：在电子设备与另一电子设备进行视频通话的过程中，在第一视频显示窗口中显示第一视频图像，并且，在第二视频显示窗口显示第二视频图像；其中，第一视频图像为另一电子设备的摄像头采集并发送给电子设备的视频图像，第二视频图像为电子设备的摄像头采集的视频图像；接收对第一视频图像中的第一融合对象的第一用户操作；基于第一用户操作，将第一融合对象的图像融合到第二视频图像中，得到第一视频融合图像；在第一视频显示窗口中显示第一视频融合图像。

在一种可能的实现方式中，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：响应于接收到的第二操作，显示视频融合选项；响应于接收到的第二用户操作，显示视频融合选项；响应于接收到的点击视频融合选项的第三用户操作，显示至少一个待融合选项；接收点击第一融合对象对应的待融合选项的第一用户操作。

在一种可能的实现方式中，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：基于第三用户操作，对第二视频图像进行实例分割，得到至少一个实例；至少一个待融合选项与至少一个实例一一对应。

在一种可能的实现方式中，至少一个待融合选项为文本选项。

在一种可能的实现方式中，至少一个待融合选项为至少一个对象对应的实例；其中，不同的对象对应的实例的颜色不相同。

在一种可能的实现方式中，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：将第一融合对象的图像，叠加到第二视频图像中，得到第一视频融合图像。

在一种可能的实现方式中，第一融合对象的图像在第一视频融合图像中的位置，与第一融合对象的图像在第一视频图像中的位置相同，且第一融合对象的图像在第一视频融合图像中的位置随着第一融合对象的图像在第一视频图像中的位置变化。

在一种可能的实现方式中，第一融合对象的图像在第一视频融合图像中的尺寸，与第一融合对象的图像在第一视频图像中的尺寸相同。

在一种可能的实现方式中，方法还包括：响应于接收到的第四用户操作，调整第一融合对象的图像在第一视频融合图像中的尺寸。

在一种可能的实现方式中，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：在与另一电子设备进行视频通话的过程中，向另一电子设备发送第二视频图像；向另一电子设备发送融合指示信息，融合指示信息用于指示另一电子设备将第一融合对象的图像融合到第一视频图像中，得到并显示第一视频融合图像。

在一种可能的实现方式中，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：向另一电子设备发送第一视频融合图像。

在一种可能的实现方式中，电子设备的显示窗口中包括拍照选项和/或录制选项；其中，拍照选项用于指示保存第一视频显示窗口中当前显示的第一图像，第一图像属于第一视频融合图像；录制选项用于指示保存第一视频融合图像。

在一种可能的实现方式中，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：接收对第一视频图像中的第二融合对象的第五用户操作；第二融合对象与第一融合对象不同；基于第五用户操作，将第二融合对象的图像融合到第二视频图像中，得到第二视频融合图像；在第一视频显示窗口中显示第二视频融合图像。

在一种可能的实现方式中，第一融合对象包括多个对象。

在一种可能的实现方式中，当计算机程序被一个或多个处理器执行时，使得电子设备执行以下步骤：在第二视频显示窗口显示第一视频图像，和/或，在第三视频显示窗口显示第二视频图像。

第三方面，本申请实施例提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

第四方面，本申请实施例提供了一种计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理电路、收发管脚。其中，该收发管脚、和该处理电路通过内部连接通路互相通信，该处理电路执行第一方面或第一方面的任一种可能的实现方式中的方法，以控制接收管脚接收信号，以控制发送管脚发送信号。

第六方面，本申请实施例提供一种视频通话系统，该系统包括上述第一方面涉及到的第一电子设备和第二电子设备。

附图说明

图1为示例性示出的电子设备的硬件结构示意图；

图2为示例性示出的电子设备的摄像头结构示意图；

图3为示例性示出的电子设备的软件结构示意图；

图4为示例性示出的视频通话过程中的终端界面示意图；

图5为示例性示出的终端A与终端B在视频通话过程中的数据交互示意图；

图6为示例性示出的视频通话方法的流程示意图；

图7为示例性示出的视频通话的用户界面示意图；

图8a为示例性示出的视频融合的用户界面示意图；

图8b为示例性示出的用户界面示意图；

图8c为示例性示出的用户界面示意图；

图9a为示例性示出的实例分割示意图；

图9b为示例性示出的实例分割示意图；

图10a为示例性示出的用户界面示意图；

图10b为示例性示出的用户界面示意图；

图11a为示例性示出的终端的数据交互示意图；

图11b为示例性示出的视频融合示意图；

图12为示例性示出的视频融合界面示意图；

图13为示例性示出的另一种视频融合界面的示意图；

图14为示例性示出的一种视频融合界面的示意图；

图15为示例性示出的视频融合示意图；

图16为示例性示出的视频融合示意图；

图17为示例性示出的终端数据交互示意图；

图18为示例性示出的视频通话界面示意图；

图19a为示例性示出的用户界面示意图；

图19b为示例性示出的用户界面示意图；

图20为示例性示出的视频融合示意图；

图21为示例性示出的视频通话界面示意图；

图22a为示例性示出的用户界面示意图；

图22b为示例性示出的用户界面示意图；

图22c为示例性示出的用户界面示意图；

图22d为示例性示出的用户界面示意图；

图23为示例性示出的用户界面示意图；

图24为示例性示出的装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一目标对象和第二目标对象等是用于区别不同的目标对象，而不是用于描述目标对象的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个系统是指两个或两个以上的系统。

图1示出了电子设备100的结构示意图。应该理解的是，图1所示电子设备100仅是电子设备的一个范例，并且电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。需要说明的是，本申请实施例中仅以电子设备100为手机为例进行说明，在其他实施例中，电子设备100还可以是平板、可穿戴设备、智能家居设备(例如智能电视)、车载设备等具有视频功能的设备，本申请不做限定。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU(Graphics ProcessingUnit，图像处理器)，NPU(Neural network Processing Unit，神经网络处理器)，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

示例性的，摄像头193可以位于电子设备的边缘区域，可以为屏下摄像头，也可以是可升降的摄像头。摄像头193可以包括后置摄像头，还可以包括前置摄像头。本申请实施例对摄像头193的具体位置和形态不予限定。电子设备100可以包括一种或多种焦段的摄像头，例如不同焦段的摄像头可以包括长焦摄像头、广角摄像头、超广角摄像头或全景摄像头等。

如图2所示为电子设备100为手机时，摄像头193在手机上的位置示意图，参照图4(1)，示例性的，手机的显示屏的上部(靠近顶部边缘区域)设置有前置摄像头，前置摄像头可以为一个或多个，本申请实施例中，手机包括两个前置摄像头。需要说明的是，图2的(1)中所示的摄像头的布局方式(例如横排及间隔)仅为示意性举例，本申请不做限定。参照图2的(2)，示例性的，手机的背部(即与显示屏相对的一面)设置有一个或多个后置摄像头，例如，图2的(2)中的手机的后置摄像头包括4个摄像头，4个摄像头可以看作为后置摄像头模组，也可以将其看作为单独的4个摄像头。其中，4个摄像头可以包括但不限于：广角摄像头、超广角摄像头、全景摄像头等，本申请不做限定。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图3是本申请实施例的电子设备100的软件结构框图。

电子设备100的分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图3所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频通话，短信息等应用程序。需要说明的是，本申请实施例中的方案仅以视频通话应用的视频通话过程为例进行说明，在其他实施例中，本申请的方案可以应用于任意具有视频通话功能的第三方应用。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器，图像处理模块等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

图像处理模块也可以称为图像处理器或图像处理模块。在本申请实施例中，该模块可以运行于NPU、GPU、ISP上，也可以理解为是NPU、GPU或ISP的逻辑程序。图像处理模块可用于实现本申请实施例中的视频通话方法中的图像处理部分，例如可以对图像进行AI识别，还可以对图像进行融合(也可以称为视频融合)等，具体实现方式将在下文中详细说明。可以理解为，在本申请实施例中，视频通话应用在通话过程中，可以调用运行在NPU、GPU或ISP等硬件上的图像处理模块，以实现视频通话过程中的视频融合。本申请实施例中通过调用NPU、GPU或ISP等器件执行图像处理流程，可释放CPU资源，以减少CPU资源占用，并且可以有效提升图像处理的效率，以使得视频通话的画面更加流畅。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动，Wi-Fi驱动等，本申请不做限定。

可以理解的是，图3示出的系统框架层、系统库与运行时层包含的部件，并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

图4为示例性示出的视频通话过程中的终端界面示意图。本申请实施例中以包括终端A和终端B的通话场景为例进行说明。需要说明的是，本申请实施例中仅以终端A和终端B均为手机为例进行说明，在其他实施例中，终端也可以是平板、可穿戴设备、电脑、智能家居设备等具有视频功能的设备，本申请不做限定。进一步需要说明的是，本申请实施例中是以视频通话应用为例进行说明的，在其他实施例中，视频通话应用还可以是其他可以提供视频通话功能的系统应用或者是第三方应用，本申请不做限定。进一步需要说明的是，用户A可预先登录视屏通话应用。可选地，用户A的视频通话应用的账号可以是与终端A的账号相同，例如均为华为账号，也可以是其它账号，本申请不做限定。用户B与用户A相同，此处不再赘述。

请参照图4的(1)，终端B向终端A发起视频通话。终端A(也可以理解为是终端A的视频通话应用)响应于接收到的视频请求，在终端A显示界面中显示视频通话邀请界面401。视频通话邀请界面可以包括但不限于：用户B的头像、拒绝选项402和接听选项403。用户A可以点击接听选项403，以接受用户B的视频邀请。

请参照图4的(2)，示例性的，终端A响应于接收到的用户操作点击接听选项403的操作，与终端B建立通话连接(也可以称为通信连接或视频通话连接，本申请不做限定)。在本申请实施例中，终端A与终端B之间的通信连接可以是基于Wi-Fi协议维护的，也可以是基于其它任意通信协议维护的，本申请不做限定。通话连接的具体建立流程可参照已有技术示例中的相关内容，本申请不再赘述。

仍参照图4的(2)，终端A与终端B建立通话连接后，终端A与终端B可进行视频通话。图5为示例性示出的终端A与终端B在视频通话过程中的数据交互示意图。请参照图5，示例性的，终端A与终端B建立通话连接后，终端A的摄像头(可以是前置摄像头和/或后置摄像头)采集图像，终端A的手机中的模块(例如渲染模块等)可以对摄像头采集到的图像进行图像处理，并将图像发送给视频通话应用。视频通话应用获取图像后，可通过手机的通信模块(相关描述可参照图1，此处不再赘述)将图像通过与终端B之间的通话连接发送给终端B。

需要说明的是，在本申请实施例中，图像也可以称为图像帧或图像数据，本申请不做限定。

进一步需要说明的是，终端A可选地向终端B发送数据包，数据包中可包括一个或多个摄像头采集到的图像。图像帧以及数据包的封装方式可参照已有技术实施例中的相关描述，本申请不做限定。

相应的，终端B可将摄像头采集到的图像发送给终端A，具体描述与终端A类似，此处不再赘述。

需要说明的是，本申请实施例中的各附图仅示意出一个图像所对应的用户界面，实际上，终端A接收到的并且在视频通话应用显示界面上显示的是：终端B的摄像头采集到的多个图像所组成的图像组，即为视频。也可以理解为，终端A所播放的视频包括终端B的摄像头所采集到的多个连续图像。

请继续参照图4的(2)，以终端A为例，示例性的，终端A的视频通话界面404包括视频显示窗口405和视频显示窗口406。可选地，视频显示窗口405可以以悬浮窗的方式在视频显示窗口406上方显示。可选地，视频显示窗口406的大小可以与视频通话界面404的大小相近。可选地，在其他实施例中，视频显示窗口405与视频显示窗口406也可以以其它方式排布，例如可以是上下分屏或者是左右分屏等方式，本申请不做限定。需要说明的是，本申请实施例中所示的视频显示窗口405与视频显示窗口406以及下文各实施例中所涉及到的视频显示窗口的位置和大小仅为示意性举例，本申请不做限定，下文中不再重复说明。

需要说明的是，本申请实施例中以小窗口(即视频显示窗口405)显示本机摄像头采集到的图像，大窗口(例如视频显示窗口406)显示对端(例如终端B)的摄像头采集到的图像为例进行说明。在其他实施例中，小窗口也可以默认显示对端摄像头采集到的图像，大窗口也可以默认显示本机摄像头采集到的图像，本申请不做限定，下文中不再重复说明。

可选地，用户可以通过点击小窗口和/或大窗口的方式，切换窗口中所显示的对象。例如，小窗口中显示本机摄像头采集到的图像，大窗口中显示对端摄像头采集到的图像。用户可点击小窗口或者大窗口中的任一位置，以指示切换显示。相应的，终端响应于接收到的用户操作，可在小窗口中显示对端摄像头采集到的图像，在大窗口中显示本机摄像头采集到的图像。下文中不再重复说明。

在图4所示的视频通话方式中，如图4的(2)所示，该方式中用户仅能在不同的窗口看到本机摄像头采集到的图像和对端的摄像头所采集到的图像，而两个画面之间并没有任何互动。而在一些多用户视频通话场景中，例如线上体育教学场景，老师可通过学生的手机摄像头采集到的图像，观察学生的动作，而如果需要对学生的动作进行纠正时，则老师只能以视频示范或者是语言指正等方式与学生进行互动，导致互动性较差。

本申请实施例提供一种视频通话方法，可实现多个终端之间的视频通话的互动，可有效提升视频通话场景的趣味性和实用性，使得不同用户之间可通过线上视频方式进行互动，提升用户使用体验。

图6为示例性示出的视频通话方法的流程示意图。请参照图6，具体包括但不限于如下步骤：

S601，终端A与终端B建立通话连接。

示例性的，本实例中以包括终端A和终端B在内的视频通话场景为例进行说明。终端B可向终端A发送视频通话邀请，以请求与终端A进行视频通话。邀请中可包括但不限于：终端B的标识信息、终端A的标识信息等。终端B的标识信息可以包括但不限于：用户B在终端B的视频通话应用的账号、终端B的地址信息等。终端A的标识信息类似，此处不再赘述。

终端A响应于接收到的视频通话邀请，显示视频通话邀请界面，界面示意图可参照图4的(1)，此处不再赘述。

示例性的，用户A可点击接受选项，以接收用户B的视频通话邀请。终端A响应于接收到的用户操作，与终端B建立通话连接。具体细节可参照上文实施例中图4的相关描述，此处不再赘述。

S602，终端A与终端B进行视频通话。

示例性的，如图5所示，终端A与终端B建立通话连接后，终端A的视频应用调用终端A的摄像头(可以是前置摄像头和/或后置摄像头)，并获取摄像头采集到的图像。其中，获取到的图像可以是经过摄像头所对应的模块或其它模块处理(例如美颜、渲染等)处理后的图像，本申请不做限定。终端A的视频通话应用通过与终端B之间的通话连接，将摄像头采集到的图像发送给终端B。终端B相同，此处不再赘述。未描述部分可以参照图5的相关内容，此处不再赘述。

图7为示例性示出的视频通话的用户界面示意图。请参照图7的(1)，示例性的，终端A可接收到终端B发送的图像，并在视频通话界面701的视频显示窗口703中显示。并且，终端A可在视频显示窗口702中显示。请参照图7的(2)，示例性的，终端B可接收到终端A发送的图像，并在视频通话界面704的视频显示窗口706中显示。并且，终端B可在视频显示窗口705中显示。也就是说，在未开启互动模式(在本申请实施例中也可以称为融合模式)之前，终端A与终端B仍采用图4的(2)的视频通话方式。即，终端A的视频通话界面中，通过小窗口(例如图7的(1)中的视频显示窗口702)显示本机(即终端A)的摄像头所采集到的图像，并且，通过大窗口(例如图7的(1)中的视频显示窗口703)显示对端(例如终端B)的摄像头所采集到的图像。未描述细节可参照图4的(2)中的相关描述，此处不再赘述。

S603，终端A向终端B发送待融合的实例ID。

在本申请实施例中，以用户A期望将用户B的视频图像中的部分内容融合到用户A的视频图像中为例进行说明。需要说明的是，本申请实施例中所述的视频图像可以理解为是上文所述的图像组，即包括多个图像的视频。也可以理解为，用户A期望将用户B的多个图像中的相同内容，融合到用户A的每个图像中。需要说明的是，本申请实施例中仅以用户A发起视频融合为例进行说明，在其他实施例中，也可以是用户B发起视频融合，其实现方式与用户A的实现方式相同，本申请不再逐一举例说明。

图8a为示例性示出的视频融合的用户界面示意图。请参照图8a的(1)，用户A可点击视频通话界面701中的“更多”选项。请参照图8a的(2)，终端A响应于接收到的用户操作，显示更多选项框801，更多选项框801中包括至少一个功能所对应的选项。例如可以包括但不限于：滤镜选项和融合选项。其中，融合选项即为视频融合功能所对应的选项，用户可通过点击该选项以触发视频融合功能。需要说明的是，本申请实施例中所述的视频融合功能也可以称为视频互动功能或者是其他名称，本申请不做限定。

图8b为示例性示出的用户界面示意图，请参照图8b，示例性的，终端A响应于接收到的用户点击融合选项的操作后，可以显示融合主体确认框802。融合主体确认框802中包括提示信息“作为视频融合主体与终端B进行融合”，以及“是”选项和“否”选项。其中，“是”选项用于指示将本机(即终端A)的摄像头采集到的图像作为视频融合的主体。“否”选项用于指示将对端(即终端B)的摄像头采集到的图像作为视频融合主体。需要说明的是，视频融合的主体是指将主体所对应的图像作为融合背景，将其它终端的图像中的图像内容作为待融合内容，融合到主体所对应的图像中。

一个示例中，若用户点击“是”选项，终端A响应于接收到的用户操作(例如用户点击融合选项，或者是用户点击融合主题确认框802中的“是”选项)，确认终端A的摄像头采集到的图像将作为融合主体，与终端B的摄像头采集到的图像的全部或部分内容进行视频融合。终端A通过与终端B之间的通话连接，向终端B发送视频融合请求。视频融合请求用于指示终端A请求与终端B进行视频融合，并且融合主体为终端A的摄像头采集到的图像。

另一个示例中，若用户点击“否”选项，则终端A响应于接收到的用户操作，确定将终端B的摄像头采集到的图像作为视频融合主体。终端A通过通话连接向终端B发送视频融合请求。视频融合请求用于指示终端A请求与终端B进行视频融合，并且融合主体为终端B的摄像头采集到的图像。也可以理解为，在该示例中，终端B的摄像头采集到的图像将作为视频融合的背景，即，将终端A的摄像头采集到的图像的全部或部分内容融合到终端B的摄像头采集到的图像中。

请参照图8c，示例性的，终端B接收到终端A发送的视频融合请求。终端B响应于接收到的视频融合请求，在视频通话界面704中显示视频融合请求框803。可选地，视频融合请求框803中可以包括提示信息“用户A请求作为融合主体与您进行视频融合”，以及同意选项和拒绝选项。

一个示例中，若用户B点击拒绝选项，即用户B不同意用户A作为融合主体(也可以理解为是终端A的摄像头采集到的图像作为主体)与用户B进行视频融合，也可以理解为是用户B不同意与用户A进行视频融合。终端B可通过通话连接向终端A发送拒绝响应，用于指示用户B拒绝与用户A进行视频融合通话。

可选地，终端A响应于接收到的拒绝响应，取消本次视频融合流程，即继续与用户B以图7所示的方式进行视频通话。

可选地，终端A响应于接收到的拒绝响应，显示提示信息，该提示信息用于提示用户B已经拒绝用户A视频融合请求，是否还需要继续进行视频融合。一个示例中，如果用户A选择“是”，即指示继续进行视频融合，则用户A可以执行S604a，即终端A仍然可以执行视频融合。而与下文中的实施例不相同的是，用户B不会同步显示融合后的视频画面。另一个示例中，如果用户选择“否”，即指示不再继续执行视频融合，则取消本次视频融合流程，即继续与用户B以图7所示的方式进行视频通话。

仍参照图8c，另一种可能的实现方式中，若用户B点击同意选项，即用户B同意用户A作为融合主体(也可以理解为是终端A的摄像头采集到的图像作为主体)与用户B进行视频融合，也可以理解为是用户B同意与用户A进行视频融合。终端B响应于接收到的用户操作，向终端A发送同意响应，用于指示用户B同意与用户A进行视频融合。

示例性的，终端A响应于接收到终端B发送的同意响应(概念见上文)，确定终端A的摄像头采集到的画面将作为主体，与终端B的摄像头采集到的图像的全部或部分内容进行视频融合后，终端A对接收到的终端B发送的图像进行实例分割。

需要说明的是，如上文所述，在用户B拒绝用户A的视频融合请求，并且用户A选择继续执行视频融合的场景下，终端A同样可继续执行后续步骤，即对终端B发送的图像进行实例分割等处理。为区分于图6中的终端A与终端B同步进行视频融合的方案，下文实施例中将终端A与终端B均进行视频融合的方案称为同步视频融合方案，将终端A独立进行视频融合，即终端B不同步进行视频融合的方案称为单机视频融合方案。

进一步需要说明的是，在一种可能的实现方式中，终端可以默认将视频融合功能的发起端(例如终端A)作为视频融合的主体。例如，如图8a的(2)中，终端A响应于接收到的用户点击融合选项的操作，即可确定终端A请求作为主体与终端B进行视频融合，相应的，终端A向终端B发送视频融合请求。也就是说，跳过图8b所示的步骤，而执行图8c所示的步骤。

进一步需要说明的是，本申请实施例中所示的各选项框的尺寸、位置以及提示信息的文字内容仅为示意性举例，本申请不做限定。

示例性的，如上文所述，终端A确认需要执行视频融合之后，可对终端B发送的图像进行实例分割。示例性的，实例分割具体为：终端将不同类型的实例进行分类，比如用5种不同颜色来标记5辆汽车。

图9a为示例性示出的实例分割示意图。请参照图9a的(1)，示例性的，终端的图像处理器件(例如为终端中的GPU、ISP或NPU等硬件所运行的逻辑程序(例如图3中的图像处理模块)，本申请以图像处理模块为执行主体进行说明，下文中不再赘述)获取到终端B发送的图像901。图像901中包括但不限于：人物(例如是用户B的人物图像)的图像901a，小狗的图像901b和小猫的图像901c等。如图9a的(2)所示，图像处理模块对图像901进行实例分割，分割出：与人物的图像901a对应的人物实例902a，与小狗的图像901b对应的小狗实例902b，与小猫的图像901c对应的小猫实例902c。示例性的，图像处理模块将不同的实力以不同的颜色进行标记，以区分不同的实例。示例性的，每个实例可对应标识信息(可称为实例标识信息)以用于唯一标识对应的实例。实例分割的具体识别与分割细节可参照已有技术实施例，本申请不做限定。

需要说明的是，本申请实施例仅以实例分割为例进行说明，在其他实施例中，终端还可以采用语义分割等其它方式，以识别并标记图像中的不同对象(包括动物、人物以及其他物体等)，本申请不做限定。

在一种可能的实现方式中，用户A可以通过手势、声控或触摸笔等方式，划定ROI(region of interest，感兴趣区域)区域。终端可对ROI区域中的图像进行实例分割。举例说明，图9b为示例性示出的实例分割示意图。请参照图9b的(1)，示例性的，用户A可以通过手势、声控或触摸笔等方式，划定ROI区域，即为图9b的(1)中的区域所示。请参照图9b的(2)，示例性的，图像处理模块对ROI区域中的图像进行实例分割，即获取到小猫实例902b和小猫实例902c，而人物图像901a则无需进行识别与分割。

图10a为示例性示出的用户界面示意图。请参照图10a，图像处理模块对图像进行实例分割并获取到实例分割结果后，将实例分割结果发送给视频通话应用。视频通话应用可在用于显示用户B的图像的视频显示窗口703(也可以是视频显示窗口702，本申请不做限定)中显示实例分割结果。用户可点击期望进行视频融合的对象，例如，本实例中以用户点击人物实例902a为例进行说明。

请参照图10b，示例性的，终端(可以为视频通话应用)响应于接收到的用户操作，显示提示框1001。提示框1001中包括提示信息“确定选择该对象进行视频融合”以及“是”选项和“否”选项。

一个示例中，若用户选择“否”选项，则终端响应于接收到的用户操作，跳转到图10a中以使得用户重新选择。

本申请实施例中以用户选择“是”选项为例进行说明。终端A响应于接收到的用户A点击“是”选项的操作，确定用户选择人物实例902a作为待融合对象。终端A获取人物实例902a对应的实例标识信息(即实例ID)。图11a为示例性示出的终端的数据交互示意图。请参照图11a，终端A通过通话连接向终端B发送实例ID，用于指示同步融合过程中，以该实例ID所对应的实例(即人物实例902a)作为待融合对象进行融合。

需要说明的是，如图11a所示，终端A与终端B在执行本申请实施例中的任一步骤的过程中，终端A与终端B仍然在进行数据交互，即互相传输各自摄像头所采集到的图像。例如，终端A向终端B发送实例ID时，终端A与终端B同时在交互各自摄像头采集到的数据。

进一步需要说明的是，如上文所述，由于终端A与终端B在实时交互各自摄像头采集到的数据，则终端A在执行实例分割和实例选择的过程中，即如图9a～图10b的过程中，终端A所接收到的图像中的人物或其他物体是动态变化的，也可以是静态的。在图像中的对象(包括人物、动物等)动态变化过程中，图像处理模块实时对各图像进行实例分割。举例说明，假设图9a所示的图像为图像1，图10a所示的图像为图像2，其中，图像1与图像2可以是同一个图像，也可以是相邻图像，还可以是两个图像之间间隔多个图像。也就是说，图像处理模块在用户选择一个目标实例之前，对每个接收到的图像均进行实例分割，并显示对应的实例分割结果，即使用不同的颜色(或其它填充方式)标记每个图像中的不同实例。

进一步需要说明的是，本申请实施例中仅以图像中的对象数量一直保持不变为例进行说明。在实际使用过程中，图像中的对象的数量可以增加或减少。仍以图像1和图像2为例，示例性的，图像1中的包括人物、小猫和小狗，而图像2中可以仅包括人物和小狗。相应的，图像2的实例也相对减少，即仅包括人物和小狗对应的实例。

进一步需要说明的是，本申请实施例中仅以实例的标识信息为实例ID为例进行说明。在其他实施例中，实例的标识信息也可以是实例在图像中的位置信息，例如可以是坐标信息。该坐标可以是以图像的左上角为原点建立的坐标系，坐标信息可以是实例的中心点在坐标系中的坐标。坐标信息还可以是以中心点和实例的边缘构建的矩形的四个顶点所对应的坐标，本申请不做限定。

示例性的，终端B接收到实例ID后，可执行S604b。

示例性的，终端A发送实例ID之前、或者发送实例ID的同时，或者是发送实例ID之后，可执行S604a。

S604a，终端A基于实例ID、终端A的摄像头采集的图像和终端B的摄像头采集的图像进行视频融合。

图11b为示例性示出的视频融合示意图。请参照图11b，如上文所述，终端A基于实例ID，确定用户A选择的待融合对象(即终端B发送的图像)为人物实例902a。在本申请实施例中，终端A将终端A的摄像头采集到的图像(例如图像1101)作为融合主体，将终端B发送的图像中，与实例ID对应的人物实例902a所对应的人物图像融合到图像1101中。

可选地，图像处理模块可以采用叠加的方式，例如将人物实例902a对应的人物图像叠加到图像1101中，以得到融合图像1102。

在一种可能的实现方式中，图像处理模块将人物实例902a对应的人物图像叠加到图像1101时，可以是基于人物图像在图像901中的位置和尺寸比例，将人物图像叠加到图像1101中。也就是说，人物图像在图像1101中的位置与人物图像在图像901中的位置和尺寸比例是相同的。

在另一种可能的实现方式中，图像处理模块可以按照人物图像在图像901中的位置和尺寸比例，将人物图像直接叠加到图像1101的上方。例如图11b所示，在图像1102中，人物实例902a所对应的人物图像是叠加在图像1101中的人物上方的。

在又一种可能的实现方式中，图像的融合方式也可以采取交叉重叠等方式。例如在图像1102中，人物实例902a对应的人物图像可以位于图像1101的树的前方(或上方)，而位于人物的下方(或后方)。本申请不做限定。

图12为示例性示出的视频融合界面示意图。请参照图12的(1)，终端A的图像处理模块将终端A的摄像头采集到的图像(例如图像1101)与终端B发送的图像中的部分内容(例如人物图像)进行融合后，得到图像1102。图像处理模块将图像1102发送给视频通话应用。视频通话应用在视频通话界面1201的视频显示窗口1203中显示图像1102。示例性的视频显示窗口1201中还可以包括视频显示窗口1202，视频显示窗口1202中显示的内容仍然可以是终端B所发送的图像，也就是说终端B的摄像头采集到的图像，具体描述可以参照图7的相关描述，此处不再赘述。

可选地，视频显示窗口1202也可以用于显示终端A的摄像头采集到的图像。

可选地，视频显示窗口1202可以用于显示视频融合画面(例如图像1102)，视频显示窗口1203可以用于显示终端A的摄像头采集到的图像或者是终端B发送的图像。

可选地，用户A可以通过点击或滑动(也可以是其它方式，本申请不做限定)以切换视频显示窗口中显示的内容。例如，视频显示窗口1203中显示图像1102，且视频显示窗口1202中终端B发送的图像的情况下，视频通话应用响应于接收到的用户点击任一显示窗口的操作，视频通话应用将视频显示窗口中的显示内容互换，即，视频显示窗口1203中端B发送的图像，视频显示窗口1202显示图像1102。

可选地，用户A也可以通过长按(也可以是其他方式)视频显示窗口1202，以切换视频显示窗口1202中显示的内容。例如，视频通话应用响应于接收到的用户长按操作，将视频显示窗口1202中显示的终端B发送的图像切换为终端A的摄像头采集到的图像。

在一种可能的实现方式中，用户A可以拖动视频显示窗口1202，以改变视频显示窗口1202在显示界面中的位置。

在另一种可能的实现方式中，用户A可以通过捏合等手势(也可以是其它手势，本申请不做限定)，以放大或缩小视频显示窗口1202和/或视频显示窗口1203的大小，本申请不做限定。

S604b，终端B基于实例ID、终端B的摄像头采集的图像和终端A的摄像头采集的图像进行视频融合。

示例性的，终端B接收到用户点击同意选项(如图8c所示)的操作之后，或者是，终端B接收到终端A发送的实例ID之后，终端B确定终端A的图像将作为融合主体，而终端B的图像将作为待融合对象。相应的，终端B的图像处理模块可以对终端B的摄像头采集到的图像进行实例分割。需要说明的是，本申请实施例中的终端A与终端B的图像处理模块在执行实例分割与图像融合时所采用的算法是相同的，例如均是基于相同的AI深度神经网络进行实例分割以及图像融合的。也就是说，终端A与终端B的实例分割结果与视频融合的结果是相同的。

示例性的，图像处理模块对图像进行实例分割后，可基于接收到实例ID，确定待融合对象为人物实例902a所对应的人物图像。图像处理模块可以将摄像头采集到的图像中的人物图像融合到终端A发送的图像中。具体融合方式可参照终端A的相关内容，此处不再赘述。

图12为示例性示出的视频融合界面示意图。请参照图12的(2)，终端B的图像处理模块将终端A发送的图像(例如图像1101)与终端B的摄像头采集的图像中的部分内容(例如人物图像)进行融合后，得到视频融合图像(例如图像1202)。图像处理模块将图像1102发送给视频通话应用。视频通话应用在视频通话界面1204的视频显示窗口1206中显示图像1102。示例性的视频显示窗口1205中还可以包括视频显示窗口1205，视频显示窗口1205中显示的内容仍然可以是终端A所发送的图像，也就是说终端A的摄像头采集到的图像，具体描述可以参照图7的相关描述，此处不再赘述。其它为描述部分均可参照终端A，此处不再赘述。

在一种可能的实现方式中，图13为示例性示出的另一种视频融合界面的示意图。请参照图13的(1)，示例性的，终端A的视频通话界面1301中包括视频显示窗口1302、视频显示窗口1303以及视频显示窗口1304。其中，视频显示窗口1303用于显示终端A的摄像头采集到的图像。视频显示窗口1302用于显示终端B发送的图像。视频显示窗口1304用于显示融合后的图像(例如图像1102)。请参照图13的(2)，与终端A类似，终端B的视频通话界面1305中包括视频显示窗口1306、视频显示窗口1307以及视频显示窗口1308。其中，视频显示窗口1306用于显示终端A发送的图像。视频显示窗口1307用于显示终端B的摄像头采集的图像。视频显示窗口1308用于显示融合后的图像(例如图像1102)。需要说明的是，图13中的各显示窗口的位置、大小以及显示内容均可根据用户的操作调整，详细描述可参照上文，此处不再赘述。

在另一种可能的实现方式中，图14为示例性示出的一种视频融合界面的示意图。请参照图14的(1)，以终端A的视频通话界面1201为例，示例性的，用户可以点击人物实例902a所对应的人物图像，图像处理模块响应于接收到的用户操作(可以是视频通话应用将用户操作传输给图像处理模块的)，显示调整框1401(即虚线框)。示例性的，调整框1401可以是基于人物实例902a的中心点以及边缘确定的矩形(也可以是其他形状，本申请不做限定)。如图14的(2)所示，用户可通过拖动调整框1401的任意定点或边框，以调整(例如放大或缩小)人物实例902a的人物图像的大小。示例性的，图像处理模块可基于接收到的用户操作，对应调整人物图像在图像中的尺寸，并将调整后的图像发送给视频通话应用。视频通话应用可在视频显示窗口1203中显示获取到的图像。

在又一种可能的实现方式中，用户还可以通过拖动人物实例902a所对应的人物图像，以调整人物图像在显示窗口中的位置。为更好区分各图像，下文实施例中将已经融合到图像中的人物图像(也可以是其他图像)称为融合对象。需要说明的是，本申请实施例中，用户A是在终端A上对融合对象进行操作的，例如移动、放大或缩小等。如上文所述，终端A与终端B是分别基于实例ID以及相同的算法进行融合的，也就是说，是并行执行的。而用户A在终端A上对融合对象的移动或尺寸调整的操作是不会影响终端B侧的显示的。也就是说，终端A在以图14的(2)中所示的画面进行显示时，终端B可以仍然按照图12的(2)中的画面进行显示，即，融合对象的尺寸和位置不随着终端A中的融合对象变化。当然，用户B也可以在终端B上调整融合对象的位置和尺寸，其处理方式与终端A相同，此处不再赘述。

需要说明的是，本申请实施例中的各附图均是以单一图像的处理为例进行说明的。如上文所述，终端A接收到的终端B发送的图像可以是图像组，即包括多个图像。可选地，每个图像中都可以包括人物实例902a所对应的人物图像。可选地，也可以是部分图像中包括人物实例902a所对应的人物图像。图像处理模块(以终端A为例，终端B相同，此处不再赘述)可以对人物图像进行追踪(追踪方式可参照已有技术实施例，本申请不做赘述)，以识别每个图像中是否包括人物实例902a的人物图像。

一个示例中，如果接收到的图像中包括人物实例902a的人物图像，则图像处理模块可以按照上文所述的融合方式(例如叠加方式)将待融合对象，即人物实例902a的人物图像融合到终端A的摄像头当前采集到的图像中。举例说明，图15为示例性示出的视频融合示意图。请参照图15，示例性的，终端A接收到终端B发送的图像3，并在视频显示窗口1202中显示图像3。其中，图像处理模块检测到图像3中包括人物实例903a所对应的人物图像。可选地，人物图像在图像3中的位置、大小和/或动作等可以与图像901中不相同。图像处理模块将图像3中的待融合对象按照上文所述的叠加方式融合到终端A的摄像头当前采集到的图像中，并将融合后的图像发送给视频通话应用，视频通话应用可在视频显示窗口中显示融合后的对象。需要说明的是，终端A的摄像头采集到的图像中的内容也可以是变化的，本申请不做限定。如图15所示，融合对象在视频显示窗口1203(即融合后的图像)中的位置与图13中的位置是不相同的，例如人物实例902a所对应的人物图像在原图像(即终端B发送的图像)中向右移动，相应的，融合图像中的人物的图像同样右移。需要说明的是，图15中仅以融合对象的位置变化为例进行说明。在其他实施例中，融合对象的尺寸、动作等均可以发生变化，本申请不做限定。再举例说明，假设终端B发送的图像中包括游动的鱼或者是跑动的小狗，并且，用户选择游动的鱼和跑动的小狗作为待融合对象。终端A将待融合对象与本端摄像头采集到的视频融合后，融合的视频中包括终端A的摄像头采集到的图像，并且视频中还包括跑动的小狗和游动的鱼。

终端B侧的处理类似，此处不再赘述。

另一个示例中，仍以终端A为例，如果图像处理模块识别到接收到的图像中不包括待融合对象(例如人物实例902a对应的人物图像)，则将终端A采集到的图像和终端B发送的图像传输给视频通话应用。终端A显示的界面可参照图7的(1)，也就是说，视频显示窗口分别显示的是终端A的摄像头采集到的图像和终端B发送的图像。

需要说明的是，在本申请实施例中所述的模块之间的数据传输，例如图像处理模块将处理后的图像发送给视频通话应用仅为示意性举例，在实际应用中，图像保存在内存中，图像处理模块可以对内存中的图像进行处理，并通知视频通话应用从内存中获取已处理完成的图像。

进一步需要说明的是，上文实施例中均是以用户A选择一个待融合对象为例进行说明，在本申请实施例中，用户A也可以选择多个待融合对象。例如，用户A在图10a所示的步骤中，可以选择人物实例902a、小狗实例902b和小猫实例902c，以指示将上述多个实例所对应的图像作为待融合对象进行视频融合。图像处理模块响应于接收到的用户操作，确定待融合对象包括人物图像、小猫图像和小狗图像，并基于上文所述的融合方式进行融合，得到融合图像。图像处理模块将融合图像发送给视频通话应用。图16为示例性示出的视频融合示意图。请参照图16，视频通话应用在视频显示窗口1203中显示融合图像。图像中包括终端A的摄像头采集到的图像以及终端B发送的图像中的人物图像、小猫图像和小狗图像。未描述细节可参照上文实施例，此处不再赘述。

在一种可能的实现方式中，终端A与终端B除按照图6和图11a中的交互方式进行处理外，还可以通过其它方式进行数据交互。举例说明，图17为示例性示出的终端数据交互示意图。请参照图17，用户A在选择待融合对象后，终端A响应于接收到的用户操作，执行视频融合步骤，并获取到融合图像。具体细节可参照上文，此处不再赘述。示例性的，终端A可以通过与终端B之间的通话连接，将融合图像发送给终端B。终端B响应于接收到的图像，视频通话应用可以对应的视频显示窗口中显示融合图像，其用户界面可参照图12的(2)或者图13的(2)。也就是说，在终端B侧，终端B中的图像处理模块无需再执行视频融合操作，终端B的视频显示窗口所显示的画面均来自终端A，即包括终端A的摄像头所采集到的图像以及终端A进行融合处理后的图像。当然，终端B的其中一个视频显示窗口也可以显示终端B的摄像头采集到的图像，本申请不做限定。该种处理方式可有效降低终端B侧的处理负担。需要说明的是，在图14所示的融合对象调整场景中，由于终端B接收到的是终端A发送的融合图像。因此，如果终端A侧的融合图像进行调整(包括调整尺寸和位置等，具体描述可参照图14的相关内容，此处不再赘述)，相应的，终端B接收到的即为调整后的融合图像。

在本申请实施例中，视频通话应用还可以提供拍照或录制功能。图18为示例性示出的视频通话界面示意图。请参照图18，示例性的，视频通话界面1201中还可以包括录制选项1801和拍照选项1802等。一个示例中，若用户点击录制选项1801，终端A响应于接收到的用户操作，可对图像处理模块生成的融合视频进行录制，并将录制的视频保存到本地或者是云端。可选地，融合视频即为图像处理模块进行融合处理后的多个图像所组成的视频片段。可选地，云端可以是一个服务器，也可以是多个服务器组成的集群。示例性的，用户可以通过用户账号登录云端。另一个示例中，若用户点击拍照选项1802，终端A响应于接收到的用户操作，保存当前视频显示界面中显示的融合图像。并将融合图像保存到本地或者云端。需要说明的是，上文实施例中仅以保存融合图像或者是融合视频为例进行说明。在其他实施例中，录制或者拍照也可以是针对视频显示窗口1203中和视频显示窗口1202中显示的图像。例如，以拍照为例，终端A响应于接收到的用户操作，保存的图像中可以是包括终端B发送的图像(即视频显示窗口1202中的图像)和融合图像(即视频显示窗口1203中的图像)。终端B侧的操作与终端A侧相同，此处不再赘述。

在本申请实施例中，图像处理模块还可以提供融合对象识别功能。举例说明，仍以图9a为例，终端A进行实例分割之后，图像处理模块还可以对图像中的各实例进行对象识别，以检测到具体是什么物体。具体检测方法可以通过AI深度神经网络或其他识别算法，本申请不做限定。请参照图9a，图像处理模块可以识别出待融合对象包括但不限于：小猫、小狗和人物。图像处理模块可以将识别结果发送给视频通话应用。图19a为示例性示出的用户界面示意图。请参照图19a，示例性的，视频通话应用基于图像处理模块的识别结果，可显示待融合对象列表1901。待融合对象列表1901中包括但不限于：小猫选项、小狗选项和人物选项。也就是说，区别于图10a，终端A可以不显示实例分割的结果，即无需用不同的颜色标记不同物体的图像，仅需要在内部(即图像处理模块)执行实例分割，并获取到对应的实例分割的实例ID与物体的对应关系。仍参照图19a，若用户点击小猫选项，以指示将终端B发送的图像中的小猫作为融合对象进行融合。视频通话应用接收到用户操作，并向图像处理模块指示用户操作。图像处理模块可以基于用户操作，确定用户选择的是小猫实例，并确定对应的实例ID，以执行后续的步骤。后续步骤可参照上文，此处不再赘述。

在一种可能的实现方式中，本申请实施例中的视频融合方法还可以提供天空融合方案。图19b为示例性示出的用户界面示意图。请参照图19b，示例性的，待融合对象列表1901中还可以包括天空融合选项、背景融合选项和实物融合选项。可选地，如果用户点击实物融合选项，则列表1901中可以显示图19a中所示的内容，即小猫、小狗和人物等属于实物融合的范围。可选地，如果用户点击背景融合选项，则图像处理模块响应于接收到的用户操作，将终端B发送的图像中的背景替换到终端A的摄像头采集到的图像中。其中，背景可以是指除人物和/或动物以外的其它图像内容。可选地，如果用户点击天空融合选项，图像处理模块响应于接收到的用户操作，将终端B发送的图像中的天空替换到终端A的摄像头采集到的图像中。下面以天空融合方案为例进行说明，背景替换的方案与天空替换的方案类似，本申请不再逐一举例说明。图20为示例性示出的视频融合示意图。请参照图20，图像处理模块识别到图像901(即终端B发送的图像)中的天空语义分割区域902d，图像处理模块可将图像901中的天空语义分割区域902d所对应的图像内容(例如蓝天和白云)替换到图像1101(即终端A的摄像头采集到的图像)中，并且，图像901中的天空完全覆盖图像1101中原有天空。需要说明的是，对于天空(也可以是其他背景等)的图像处理采用语义分割方式，当然，在其他实施例中也可以采用其它图像识别方式及分割方式，本申请不做限定。图21为示例性示出的视频通话界面示意图。请参照图21，视频通话应用获取到图像处理模块处理后的融合图像2001，其中，融合图像2001中的天空即为终端B发送的图像中的天空，而其他图像内容仍然为终端A的摄像头采集到的。例如，图像1001中原有天空为阴天，而图像901中为蓝天白云，则融合后的图像2001中的天空即为蓝天白云。

在另一种可能的实现方式中，本申请实施里中的视频融合方法还可以提供多用户融合方案，即在多个用户进行视频通话过程中，可以将不同用户的画面(即图像)中的全部或部分图像内容融合到本端或者是任一用户的图像中。图22a为示例性示出的用户界面示意图，请参照图22a，示例性的，终端A、终端B与终端C建立通话连接，并进行图像交互。图22a中以终端A为例进行说明，视频通话界面2201中包括但不限于：视频显示窗口2202、视频显示窗口2203和视频显示窗口2204。视频显示窗口2202用于显示用户B的画面，即终端B发送的终端B的摄像头所采集到的图像。视频显示窗口2203用于显示用户C的画面，即终端C发送的终端C的摄像头所采集到的图像。视频显示窗口2204用于显示用户A的画面，即终端A的摄像头所采集到的图像。终端A响应于接收到用户点击更多选项的操作，显示融合对象确认框2205。可选地，融合对象确认框2205中包括当前与终端A进行视频通话的多个对象，例如包括用户B和用户C。如图22b所示，本实例中以用户点击用户B选项和用户C选项为例进行说明。用户选择用户B选项和用户C选项，并点击确定选项。终端A响应于接收到的用户操作，确定用户选择用户B和用户C的图像作为待融合对象。如图22c所示，终端A(即图像处理模块)对用户B的图像(即终端B发送的图像)和用户C的图像(即终端C发送的图像)进行实例分割，并得到实例分割结果。视频通话应用可在对应的视频显示窗口中显示图像所对应的实例分割结果。例如，终端B发送的图像所对应的实例分割结果中包括但不限于小鸟实例2202a，终端C发送的图像所对应的实例分割结果中包括但不限于人物实例2203a。用户可以点击对应的实例，以选择待融合对象。示例性的，以用户点击人物实例2203a以及小鸟实例2202a为例进行说明。图像处理模块响应于接收到的用户操作，获取用户选择的各实例所对应的实例ID，并将实例ID发送给终端B和终端C，具体实现可参照上文实施例，此处不再赘述。示例性的，终端A基于用户选择实例对应的实例ID，将实例ID所对应的图像内容融合到终端A的摄像头采集到的图像中。图22d为示例性示出的视频通话界面示意图。请参照图22d，视频通话应用获取到图像处理模块处理后的融合图像，并在视频显示窗口2204中显示融合图像。其中，视频显示窗口2202与视频显示窗口2203仍然分别用于显示终端B与终端C发送的图像。如图22d所示，融合图像中包括终端B发送的图像中的小鸟所对应的图像内容，以及终端C发送的图像中的人物所对应的图像内容。其具体融合方式可参照上文实施例中的相关内容，此处不再赘述。需要说明的是，图22a中的实施例仅以用户A选择用户B和用户C对应的图像同时作为待融合对象为例进行说明，在其他实施例中，用户A也可以选择其中任一个用户作为待融合对象，本申请不做限定。需要说明的是，图22a中仅以三个用户之间的视频通话为例进行说明，在其他实施例中，视频通话的场景中还可以包括更多的用户，并且，用户A可以选择至少一个用户作为待融合对象，本申请不做限定。

在又一种可能的实现方式中，在图8a的(2)或者是图8b所示的流程执行之后，终端A还可以进一步询问用户是否需要终端B与终端A进行同步融合。图23为示例性示出的用户界面示意图，请参照图23，终端A响应于接收到的用户点击图8a的(2)中的融合选项，或者是响应于接收到的用户点击图8b中的确定选项之后，可以显示同步提示框2304。同步提示框2304中包括但不限于：提示信息“是否需要用户B同步显示视频融合画面”、是选项以及否选项。一个示例中，若用户点击是选项，则可继续执行图8c及之后的步骤。另一个示例中，若用户点击否选项，则终端A响应于接收到的用户操作，可确定用户期望实现单机视频融合，即终端A基于终端B发送的图像以及终端A的摄像头采集到的图像进行视频融合，而无需终端B执行视频融合相关步骤，即终端B所显示的画面仍然为图7的(2)所示的界面。

在又一种可能的实现方式中，本申请实施例中的视频融合方案可以应用于任意视频融合场景中。例如，在线上教学场景中，老师可以在教室与多个同学进行视频通话，并可将至少一名学生所对应的图像中的人物图像(即学生的图像)融合到老师的终端所采集到的图像中，以实现模拟现实教学，使得学生可以出现在视频画面的教室中。再例如，对于线上健身场景中，健身教练可以将学员的人物图像融合到健身教练的终端采集到的图像中，健身教练可以通过融合视频，与学员进行动作上的交流。再例如，在电商直播场景中，在店主展示衣服时，用户可以通过本申请实施例中视频融合方案，实现“试穿”效果。

可选地，本申请实施例中，图像处理模块在执行图像融合的过程中，可以将待融合对象进行镜像处理，即将待融合对象的镜像(即与实际图像反向的图像)融合到主体图像中。

可选地，本申请实施例中，用户还可以长按(也可以是其他操作，本申请不做限定)融合对象。终端响应于接收到的用户操作，调用本地图库中的图像。用户可以从图库中选择任一图像。终端响应于接收到的用户操作，可将融合图像中的融合对象(例如图12的(1)中的人物实例902a所对应的图像)替换为用户选择的图像。在该示例中，替换后的图像在融合图像中的位置以及尺寸等可以随着终端B发送的图像中的人物的图像变化。可选地，如果用户选择的图像是其他人物或者动物，则人物或者动物的动作也可以随着终端B发送的图像中的人物的图像变化。

需要说明的是，本申请实施例中仅以视频通话场景中包括不同的用户所使用的终端为例进行说明。在其他实施例中，视频通话场景中也可以包括但不限于同一个用户的不同终端，同一个用户的不同终端可以登录相同的账号。

进一步需要说明的是，上文实施例中仅以用户A选择终端B发送的图像作为待融合对象，即将终端B发送的图像中的人物或其它图像内容融合到终端A的摄像头采集到的图像中为例进行说明的。在其他实施例中，用户A也可以选择终端A的摄像头采集到的图像中的全部或部分图像作为待融合对象，并融合到终端B发送的图像中。可选地，用户A还可以将终端A的摄像头采集到的图像中的全部或部分图像和/或终端B发送的图像中的全部或部分图像作为待融合对象，融合到终端A的本地图库中的任一图像或视频中。

在一种可能的实现方式中，终端A与终端B进行视频融合通话，即终端A与终端B的用户界面同步显示融合视频的情况下，终端A或者终端B可以更改待融合对象。举例说明，仍参照图12的(1)，用户A可以长按(也可以是其他触发方式，本申请不做限定)视频显示窗口1203中的人物实例902a的图像。终端A响应于接收到的用户操作，可以显示确认替换提示框，提示框中包括但不限于：提示信息“是否替换待融合对象”、是选项以及否选项。可选地，若用户A点击是选项，则终端A响应于接收到的用户操作，重新执行图9a～图11a所示的流程，以替换待融合对象。可选地，若用户A点击否选项，则取消显示确认替换提示框。

可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

一个示例中，图24示出了本申请实施例的一种装置2400的示意性框图装置2400可包括：处理器2401和收发器/收发管脚2402，可选地，还包括存储器2403。

装置2400的各个组件通过总线2404耦合在一起，其中总线2404除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都称为总线2404。

可选地，存储器2403可以用于前述方法实施例中的指令。该处理器2401可用于执行存储器2403中的指令，并控制接收管脚接收信号，以及控制发送管脚发送信号。

装置2400可以是上述方法实施例中的电子设备或电子设备的芯片。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的方法。

其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请各个实施例的任意内容，以及同一实施例的任意内容，均可以自由组合。对上述内容的任意组合均在本申请的范围之内。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

Claims

1.一种视频通话方法，其特征在于，应用于第一电子设备，所述第一电子设备与第二电子设备进行视频通话，所述方法包括：

所述第一电子设备在第一视频显示窗口中显示第一视频图像，并且，所述第一电子设备在第二视频显示窗口中显示第二视频图像；其中，所述第一视频图像为所述第二电子设备的摄像头采集并发送给所述第一电子设备的视频图像，所述第二视频图像为所述第一电子设备的摄像头采集的视频图像；

所述第一电子设备接收对所述第一视频图像中的第一融合对象的第一用户操作；

所述第一电子设备基于所述第一用户操作，将所述第一融合对象的图像融合到所述第二视频图像中，得到第一视频融合图像；

所述第一电子设备在所述第一视频显示窗口中显示所述第一视频融合图像。

2.根据权利要求1所述的方法，其特征在于，所述第一电子设备接收对所述第一视频图像中的第一融合对象的第一用户操作，包括：

所述第一电子设备响应于接收到的第二用户操作，显示视频融合选项；

所述第一电子设备响应于接收到的点击所述视频融合选项的第三用户操作，显示至少一个待融合选项；

所述第一电子设备接收点击所述第一融合对象对应的待融合选项的所述第一用户操作。

3.根据权利要求2所述的方法，其特征在于，所述第一电子设备响应于接收到的点击所述视频融合选项的第二子操作，显示至少一个待融合选项，包括：

所述第一电子设备基于所述第三用户操作，对所述第二视频图像进行实例分割，得到至少一个实例；所述至少一个待融合选项与所述至少一个实例一一对应。

4.根据权利要求3所述的方法，其特征在于，所述至少一个待融合选项为文本选项。

5.根据权利要求3所述的方法，其特征在于，所述至少一个待融合选项为所述至少一个实例；其中，每个所述实例的颜色不相同。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述第一电子设备基于所述第一用户操作，将所述第一融合对象的图像融合到所述第二视频图像中，得到第一视频融合图像，包括：

所述第一电子设备将所述第一融合对象的图像叠加到所述第二视频图像中，得到所述第一视频融合图像。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述第一融合对象的图像在所述第一视频融合图像中的位置，与所述第一融合对象的图像在所述第一视频图像中的位置相同，且所述第一融合对象的图像在所述第一视频融合图像中的位置随着所述第一融合对象的图像在所述第一视频图像中的位置变化。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述第一融合对象的图像在所述第一视频融合图像中的尺寸，与所述第一融合对象的图像在所述第一视频图像中的尺寸相同。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

所述第一电子设备响应于接收到的第四用户操作，调整所述第一融合对象的图像在所述第一视频融合图像中的尺寸。

10.根据权利要求1至9任一项所述的方法，其特征在于，在所述第一电子设备与所述第二电子设备进行视频通话的过程中，所述第一电子设备向所述第二电子设备发送所述第二视频图像；所述第一电子设备接收对所述第一视频图像中的第一融合对象的第一用户操作之后，包括：

向所述第二电子设备发送融合指示信息，所述融合指示信息用于指示所述第二电子设备将所述第一融合对象的图像融合到所述第一视频图像中，得到并显示所述第一视频融合图像。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述第一电子设备基于所述第一用户操作，将所述第一融合对象的图像融合到所述第二视频图像中，得到第一视频融合图像之后，方法还包括：

所述第一电子设备向所述第二电子设备发送所述第一视频融合图像。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述第一电子设备的显示窗口中包括拍照选项和/或录制选项；其中，所述拍照选项用于指示保存所述第一视频显示窗口中当前显示的第一图像，所述第一图像属于所述第一视频融合图像；所述录制选项用于指示保存所述第一视频融合图像。

13.根据权利要求1至12任一项所述的方法，其特征在于，所述方法还包括：

所述第一电子设备接收对所述第一视频图像中的第二融合对象的第五用户操作；所述第二融合对象与所述第一融合对象不同；

所述第一电子设备基于所述第五用户操作，将所述第二融合对象的图像融合到所述第二视频图像中，得到第二视频融合图像；

所述第一电子设备在所述第一视频显示窗口中显示所述第二视频融合图像。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序存储在所述存储器上，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

在所述电子设备与另一电子设备进行视频通话的过程中，在第一视频显示窗口中显示第一视频图像，并且，在第二视频显示窗口显示第二视频图像；其中，所述第一视频图像为所述另一电子设备的摄像头采集并发送给所述电子设备的视频图像，所述第二视频图像为所述电子设备的摄像头采集的视频图像；

接收对所述第一视频图像中的第一融合对象的第一用户操作；

基于所述第一用户操作，将所述第一融合对象的图像融合到所述第二视频图像中，得到第一视频融合图像；

在所述第一视频显示窗口中显示所述第一视频融合图像。

15.根据权利要求14所述的电子设备，其特征在于，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

响应于接收到的第二用户操作，显示视频融合选项；

响应于接收到的点击所述视频融合选项的第三用户操作，显示至少一个待融合选项；

接收点击所述第一融合对象对应的待融合选项的所述第一用户操作。

16.根据权利要求15所述的电子设备，其特征在于，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

基于所述第三用户操作，对所述第二视频图像进行实例分割，得到至少一个实例；所述至少一个待融合选项与所述至少一个实例一一对应。

17.根据权利要求16所述的电子设备，其特征在于，所述至少一个待融合选项为文本选项。

18.根据权利要求16所述的电子设备，其特征在于，所述至少一个待融合选项为所述至少一个实例；其中，每个所述实例的颜色不相同。

19.根据权利要求14至18任一项所述的电子设备，其特征在于，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

将所述第一融合对象的图像叠加到所述第二视频图像中，得到所述第一视频融合图像。

20.根据权利要求14至19任一项所述的电子设备，其特征在于，所述第一融合对象的图像在所述第一视频融合图像中的位置，与所述第一融合对象的图像在所述第一视频图像中的位置相同，且所述第一融合对象的图像在所述第一视频融合图像中的位置随着所述第一融合对象的图像在所述第一视频图像中的位置变化。

21.根据权利要求14至20任一项所述的电子设备，其特征在于，所述第一融合对象的图像在所述第一视频融合图像中的尺寸，与所述第一融合对象的图像在所述第一视频图像中的尺寸相同。

22.根据权利要求21所述的电子设备，其特征在于，所述方法还包括：

响应于接收到的第四用户操作，调整所述第一融合对象的图像在所述第一视频融合图像中的尺寸。

23.根据权利要求14至22任一项所述的电子设备，其特征在于，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

在与所述另一电子设备进行视频通话的过程中，向所述另一电子设备发送所述第二视频图像；

向所述另一电子设备发送融合指示信息，所述融合指示信息用于指示所述另一电子设备将所述第一融合对象的图像融合到所述第一视频图像中，得到并显示所述第一视频融合图像。

24.根据权利要求14至23任一项所述的电子设备，其特征在于，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

向所述另一电子设备发送所述第一视频融合图像。

25.根据权利要求14至24任一项所述的电子设备，其特征在于，所述电子设备的显示窗口中包括拍照选项和/或录制选项；其中，所述拍照选项用于指示保存所述第一视频显示窗口中当前显示的第一图像，所述第一图像属于所述第一视频融合图像；所述录制选项用于指示保存所述第一视频融合图像。

26.根据权利要求14至25任一项所述的电子设备，其特征在于，当所述计算机程序被所述一个或多个处理器执行时，使得所述电子设备执行以下步骤：

接收对所述第一视频图像中的第二融合对象的第五用户操作；所述第二融合对象与所述第一融合对象不同；

基于所述第五用户操作，将所述第二融合对象的图像融合到所述第二视频图像中，得到第二视频融合图像；

在所述第一视频显示窗口中显示所述第二视频融合图像。

27.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-13任一项所述的方法。

28.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-13任一项所述的方法。

29.一种芯片，其特征在于，包括一个或多个接口电路和一个或多个处理器；所述接口电路用于从电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，使得所述电子设备执行权利要求1-13任一项所述的方法。