CN108259810A

CN108259810A - 一种视频通话的方法、设备和计算机存储介质

Info

Publication number: CN108259810A
Application number: CN201810272244.3A
Authority: CN
Inventors: 肖树山; 马小捷; 石范潘; 李斯楠; 夏吟
Original assignee: Shanghai Zhangmen Science and Technology Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-07-06
Also published as: WO2019184499A1

Abstract

本申请提供一种在终端执行视频通话的方法：终端通过第一摄像头采集第一用户本地场景的视频帧，以及，基于来自服务器端的数据获取与所述第一用户进行视频通话的第二用户的人像；将所述第二用户的人像叠加与所述第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后的视频帧。本申请提供一种在服务器端执行视频通话的方法：服务器端接收第二用户的终端发送的第二用户的视频帧；依据所述第二用户的视频帧，将所述第二用户的人像发送给与所述第二用户进行视频通话的第一用户的终端，以便第一用户的终端将所述第二用户的人像与第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后的视频帧。本申请能提升视频通话的通话效果。

Description

一种视频通话的方法、设备和计算机存储介质

【技术领域】

本申请涉及互联网应用技术，尤其涉及一种视频通话的方法、设备和计算机存储介质。

【背景技术】

现有技术在进行视频通话时，一般在视频通话界面中会显示对端摄像头摄录的视频图像；在一些情况下，还会显示本地摄像头摄录的视频图像。举例来说，若用户A与用户B进行视频通话，在用户A的视频通话界面中显示用户B的摄像头摄录的视频图像，在用户B的视频通话界面中则显示用户A的摄像头摄录的视频图像。由此，通话双方可以直观地看到通话对端传输过来的视频，便于交流。这种通话方式已经成为目前视频通话领域的习惯，以致于本领域技术人员并未发现这种视频通话未能营造更为拟真的通话场景。

【发明内容】

有鉴于此，本申请提供了一种视频通话的方法、设备和计算机存储介质。

本申请的一些实施例提供一种视频通话的方法，所述方法包括：终端通过第一摄像头采集第一用户本地场景的视频帧，以及，基于来自服务器端的数据获取与所述第一用户进行视频通话的第二用户的人像；将所述第二用户的人像与所述第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后得到的视频帧。

本申请的一些实施例提供一种视频通话的方法，所述方法包括：服务器端接收第二用户的终端发送的第二用户的视频帧；依据所述第二用户的视频帧，将所述第二用户的人像发送给与所述第二用户进行视频通话的第一用户的终端，以便第一用户的终端将所述第二用户的人像与第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后得到的视频帧。

一种设备，其特征在于，所述设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求中任一项所述的方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行权利要求中任一项所述的方法。

由以上技术方案可以看出，本申请的上述实施例将进行视频通话双方中任一方用户的人像合成至另一方用户的本地场景的视频帧。相比于现有技术中将视频通话任一方的摄像设备摄录的视频图像完整地显示在另一方的视频通话界面中的方式，本申请的上述实施例能够为进行视频通话的双方营造更加拟真的通话环境，提高视频通话效果。

【附图说明】

图1为本申请一些实施例提供的视频通话的架构图；

图2为本申请一些实施例提供的由终端执行视频通话的方法流程图；

图3为本申请一些实施例提供的由服务器端执行视频通话的方法流程图；

图4为本申请一些实施例的包含终端和服务器的系统提供的视频通话的交互图；

图5为本申请一些实施例提供的计算机系统/服务器的框图。

【具体实施方式】

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本申请进行详细描述。

在本申请下述实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

本申请的一些实施例的核心思想包括：用户在进行视频通话时，在用户的视频通话界面中显示的是将对方的用户人像合成至该用户本地场景的视频帧；进行视频通话的双方基于该合成的视频帧进行视频通话。因此，本申请的一些实施例通过采用上述方式，能够提供更加拟真的通话环境，提高用户的视频通话效果。本申请的一些实施例可以基于以下架构来实现视频通话，如图1中所示，该架构包括服务器端，第一终端、第二终端...第n终端。在本申请的一些实施例中，终端可包括用户设备，如手机、平板电脑等移动用户设备，又如台式电脑等固定用户设备；在一些实施例中，终端可包括运行在用户设备上的软件或客户端，如运行在用户设备上的第三方应用、用户设备系统自带的程序或应用、应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元等。服务器可包括集中式服务器、也可包括分布式服务器；在本申请的一些实施例中，服务器包括服务于视频通话业务的业务服务器。可以理解的是，本申请对终端的数量并不进行限定，即本申请的一些实施例既可以实现双人视频通话，也可以实现多人视频通话。在本申请的下述一些实施例中，以进行双人视频通话为例进行说明。

图2为本申请一些实施例提供的由终端执行的视频通话的方法流程图，如图2中所示，所述方法包括：

在201中，终端通过第一摄像头采集第一用户本地场景的视频帧，以及，基于来自服务器端的数据获取与所述第一用户进行视频通话的第二用户的人像。

可以理解的是，若用户A与用户B进行视频通话，对于用户A来说，其自身是第一用户，而用户B是第二用户；同样地，对于用户B来说，其自身是第一用户，而用户A是第二用户。

在本步骤中，终端通过终端设备的第一摄像头采集第一用户本地场景的视频帧。即对于用户A来说，用户A的终端通过用户A的终端设备的第一摄像头采集用户A的本地场景的视频帧；而对于用户B来说，用户B的终端通过用户B的终端设备的第一摄像头采集用户B的本地场景的视频帧。

同时，在本步骤中，终端基于来自服务器端的数据获取与第一用户进行视频通话的第二用户的人像。其中，来自服务器端的数据可以直接为第二用户的人像。也就是说，对于用户A来说，用户A的终端从服务器端接收的是用户B的人像；而对于用户B来说，用户B的终端从服务器端接收的是用户A的人像。可以理解的是，终端通过第二摄像头采集第一用户的人像，并发送给服务器端，然后再由服务器端向终端发送与第一用户进行视频通话的第二用户的人像。来自服务器端的数据也可以为第二用户的视频帧。也就是说，对于用户A来说，用户A的终端从服务器端接收的是用户B的视频帧，由用户A的终端从所接收的视频帧中获取用户B的人像；而对于用户B来说，用户B的终端从服务器端接收的是用户A的视频帧，由用户B的终端从所接收的视频帧中获取用户A的人像。

其中，第一摄像头可以为终端设备的后置摄像头，第二摄像头可以为终端设备的前置摄像头。即在本申请的一些实施例中，由终端设备的前置摄像头采集第一用户的视频帧，由终端设备的后置摄像头采集第一用户本地场景的视频帧。

可选地，在终端将第一用户的人像发送给服务器端时，可以由终端从第二摄像头所采集得到的第一用户的视频帧中，抠取第一用户的人像后，将抠取得到的第一用户的人像发送至服务器端。也可以由终端直接将第二摄像头所采集得到的第一用户的视频帧发送至服务器端，供服务器端从视频帧中抠取第一用户的人像。

在202中，将所述第二用户的人像与所述第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后得到的视频帧。

在本步骤中，根据终端所采集的第一用户本地场景的视频帧以及基于服务器端的数据所获取的与第一用户进行视频通话的第二用户的人像，将第二用户的人像与第一用户本地场景的视频帧进行合成，从而使得用户基于合成后的视频帧进行视频通话。

在本申请的一些实施例中，将第二用户的人像与第一用户本地场景的视频帧进行合成时，可以采用以下方式：根据第二用户的人像眼距，确定第二用户的人像显示尺寸；依据所确定出的显示尺寸，将第二用户的人像与第一用户本地场景的视频帧进行合成。其中，第二用户的人像眼距可以由服务器端向终端发送得到的。可以理解的是，也可以不基于第二用户的人像眼距对显示第二用户的人像时的尺寸进行调整，而直接根据预设的比例对第二用户的人像进行尺寸调整。

可选地，在根据第二用户的人像眼距确定第二用户的人像显示尺寸时，可以采用以下方式：终端获取终端设备的屏幕尺寸，根据人像眼距与屏幕尺寸的关系，确定第二用户的人像显示尺寸。其中，终端可以根据终端设备的属性信息，例如终端设备的型号信息，来确定终端设备的屏幕尺寸。例如，若终端设备为苹果7，则可以确定苹果7的屏幕尺寸为4.7英寸。另外可以理解的是，所获取的人像眼距的单位可以与屏幕尺寸的默认单位一致，例如人像眼距的单位为英寸；也可以将人像眼距和屏幕尺寸的单位换算为一致，例如若人像眼距的单位为厘米，屏幕尺寸的单位为英寸，可以将厘米换算为英寸，也可以将英寸换算为厘米。

在一些实施例中，可根据人像眼距与屏幕尺寸的关系，确定第二用户的人像的显示尺寸和人像所显示的部分。举例来说，若人像眼距大于E％(例如20％)的屏幕尺寸，则只显示第二用户人像中头顶以下F倍(例如3倍)眼距长度的身体部分，超出部分不显示；若人像眼距等于小于E％(例如20％)的屏幕尺寸，则只显示第二用户人像中头顶以下G倍(例如4倍)眼距长度的身体部分，超出部分不显示。在本申请实施例中，E、F、G均为预设值，其中优选的是F的值要小于G的值。可以理解的是，当人像眼距过大或过小时，还可以对第二用户的人像进行缩放处理，使得第二用户的人像能够在第一用户的终端屏幕中正常显示。例如，若人像眼距过大而超过屏幕尺寸时，例如人像眼距为屏幕尺寸的两倍，屏幕无法显示用户人像，则对第二用户的人像进行缩放处理，例如将其缩小为原先的一半后再进行显示。若人像眼距过小时，则可以对第二用户的人像进行缩放处理，例如将其放大为原先的2倍后再进行显示。

在本申请的一些实施例中，在将第二用户的人像与第一用户本地场景的视频帧进行合成时，还可以采用以下方式：首先从第二用户的人像中选取N个像素点，以及，从第一用户本地场景的视频帧中选取M个像素点，其中N、M为大于0的正整数，可以随机选取像素点，也可以按照预设的选取位置进行选取；然后计算所选取的N个像素点以及M个像素点之间的中间色，并基于计算得到的中间色对第二用户的人像进行描边，从而使得第二用户的人像叠加时更能够融入第一用户本地场景的视频帧中；将描边所得到的第二用户的人像与第一用户本地场景的视频帧进行合成。可以理解是，也可以不对第二用户的人像进行重新描边，直接将第二用户的人像叠加在第一用户本地场景的视频帧中。也就是说，获取第二用户的人像以及第一用户本地场景的视频帧所对应的中间色，利用所获取的中间色对第二用户的人像进行描边，将描边之后的第二用户的人像与第一用户本地场景视频帧进行合成。

另外，在进行第二用户人像的叠加时，可以按照预设位置将第二用户的人像与第一用户本地场景的视频帧进行合成。也就是说，本实施例是将第二用户的人像放置在第一用户本地场景的视频帧中的合适位置，而不是将第二用户的人像进行随意放置。例如，若预设位置为第一用户本地场景视频帧的底边的中间位置，则将第二用户的人像居中叠加在第一用户本地场景的视频帧的底边上，预设位置也可以为第一用户本地场景的视频帧中的左端、右端等，本申请对第二用户的人像的叠加位置不进行限定。

在将第二用户的人像与第一用户本地场景的视频帧进行合成后，在视频通话界面显示合成后所得到的视频帧，进行视频通话的双方基于各自所合成的视频帧进行视频通话，从而提高视频通话的通话效果。

图3为本申请一实施例提供的在服务器端执行的视频通话的方法流程图，如图3中所示，所述方法包括：

在301中，服务器端接收第二用户的终端发送的第二用户的视频帧。

在本步骤中，服务器端接收第二用户的终端所发送的第二用户的视频帧。举例来说，用户A与用户B进行视频通话，对于用户A来说，服务器端接收的第二用户的视频帧即为用户B的视频帧；同样地，对于用户B来说，服务器端接收的第二用户的视频帧即为用户A的视频帧。

可以理解的是，服务器端所接收的第二用户的视频帧，可以为第二用户的终端抠取出的第二用户的人像；也可以为由第二用户的终端发送的第二用户的视频帧。

在302中，依据所述第二用户的视频帧，将所述第二用户的人像发送给与所述第二用户进行视频通话的第一用户的终端，以便第一用户的终端将所述第二用户的人像与第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后得到的视频帧。

在本步骤中，若服务器端所接收的是第二用户的视频帧，还需从第二用户的视频帧中抠取第二用户的人像；然后将抠取得到的第二用户的人像发送给与第二用户进行视频通话的第一用户的终端。另外，服务器端可以在获取第二用户的人像后，进一步检测第二用户的人像眼距，然后将检测得到的眼距信息提供给第一用户的终端，以供第一用户的终端根据人像眼距调整第二用户的人像显示尺寸。

在本步骤中，若服务器端无法检测得到第二用户的人像眼距，则表明第二用户的终端未能准确获取第二用户的图像，例如第二用户未正视摄像头或者摄像头被遮挡等情况，则服务器端向第二用户的终端返回提示信息，提示用户重新采集人像。

在本步骤中，若检测得到第二用户的人像中有多个眼距，则可以在确定满足预设要求的眼距后，将所确定的眼距以及该眼距对应的第二用户的人像发送给第一用户的终端。例如，选取多个眼距中眼距最大的第二用户的人像以及该最大的眼距发送至第一用户的终端。

在服务器端将第二用户的人像发送至第一用户的终端后，第一用户的终端将所接收的第二用户的人像与第一用户本地场景的视频帧进行合成。

以下对上述过程进行举例说明，用户A与用户B进行视频通话，则对于用户A来说，其本身是第一用户，用户B为第二用户；同样地，对于用户B来说，其本身是第一用户，用户A为第二用户。若用户A对应的终端为终端UA，用户B对应的终端为UB，终端UA在获取用户A的用户图像IA后发送至服务器端，终端UB在获取用户B的用户图像IB后发送至服务器端，服务器端在获取用户图像IA和用户图像IB后，抠取用户图像IA中的用户人像Ia以及用户图像IB中的用户人像Ib，然后将抠取得到的用户人像Ia发送至终端UB，将抠取得到用户人像Ib发送至终端UA。进而终端UA根据所得到的用户人像Ib进行合成，终端UB根据所得到的用户人像Ia进行合成。

图4为本申请一实施例提供的视频通话的交互流程图。

如图4中所示，用户A与用户B进行视频通话，用户A对应的终端为终端UA，用户B对应的终端为终端UB。首先，终端UA可以利用用户A的终端设备的前置摄像头采集用户A的视频帧，并利用终端设备的后置摄像头采集用户A的本地场景视频帧；终端UB可以利用用户B的终端设备的前置摄像头采集用户B的视频帧，并利用终端设备的后置摄像头采集用户B的本地场景视频帧；然后终端UA和终端UB分别将才记得到的用户A的视频帧和用户B的视频帧发送至服务器端；服务器端对所接收的用户A的视频帧和用户B的视频帧进行处理，抠取得到用户A的人像Ia和用户B的人像Ib；服务器端将抠取得到的用户A的人像Ia发送至终端UB，将抠取得到的用户B的人像Ib发送至终端UA；终端UA将由服务器端发送的用户B的人像Ib与用户A的本地场景视频帧进行合成，终端UB将由服务器端发送的用户A的人像Ia与用户B的本地场景视频帧进行合成；因此，用户A与用户B分别基于所合成的图像进行视频通话，使得视频通话效果更为逼真。

图5示出了适于用来实现本申请的一些实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本申请所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本申请的一些实施例中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现一种视频通话的方法，可以包括：

终端通过第一摄像头采集第一用户本地场景的视频帧，以及，基于来自服务器端的数据获取与所述第一用户进行视频通话的第二用户的人像；

将所述第二用户的人像与所述第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后得到的视频帧。

还可以实现一种视频通话的方法，包括：

服务器端接收第二用户的终端发送的第二用户的视频帧；

依据所述第二用户的视频帧，将所述第二用户的人像发送给与所述第二用户进行视频通话的第一用户的终端，以便第一用户的终端将所述第二用户的人像与第一用户本地场景的视频帧进行合成，并在视频通话界面显示合成后得到的视频帧。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本申请上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行的方法流程，可以包括：

还可以包括：

服务器端接收第二用户的终端发送的第二用户的视频帧；

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本申请所提供的技术方案，通过将进行视频通话双方中一方用户的人像叠加在另一方用户的本地场景的视频帧的方式，能够为进行视频通话的双方营造更加拟真的通话环境，从而实现提高视频通话效果的目的。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种视频通话的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

所述终端通过第二摄像头采集第一用户的人像，并发送给服务器端。

3.根据权利要求2所述的方法，其特征在于，所述第一摄像头为后置摄像头，所述第二摄像头为前置摄像头。

4.根据权利要求2所述的方法，其特征在于，所述终端通过第二摄像头采集第一用户的人像，并发送给服务器端包括：

所述终端通过第二摄像头采集第一用户的视频帧，从所述视频帧中抠取人像，将抠取所得到的人像发送至服务器端；或者，

所述终端通过第二摄像头采集第一用户的视频帧，将所述视频帧发送至服务器端，以供所述服务器端从该视频帧中抠取人像。

5.根据权利要求1述的方法，其特征在于，将所述第二用户的人像与所述第一用户本地场景的视频帧进行合成包括：

根据所述第二用户的人像眼距，确定所述第二用户的人像显示尺寸；

依据确定出的显示尺寸，将第二用户的人像与所述第一用户本地场景的视频帧进行合成。

6.根据权利要求1所述的方法，其特征在于，将所述第二用户的人像与所述第一用户本地场景的视频帧进行合成包括：

从所述第二用户的人像中选取N个像素点，以及，从所述第一用户本地场景的视频帧中选取M个像素点，其中N、M为大于0的正整数；

计算所选取的N个像素点以及M个像素点之间的中间色，并基于计算得到的中间色对所述第二用户的人像进行描边；

将描边得到的所述第二用户的人像与所述第一用户本地场景的视频帧进行合成。

7.根据权利要求1所述的方法，其特征在于，将所述第二用户的人像与所述第一用户本地场景的视频帧进行合成包括：

按照预设的位置，将所述第二用户的人像叠加于所述第一用户本地场景的视频帧中。

8.一种视频通话的方法，其特征在于，所述方法包括：

服务器端接收第二用户的终端发送的第二用户的视频帧；

9.根据权利要求8所述的方法，其特征在于，所述第二用户的视频帧为所述第二用户的终端抠取出的所述第二用户的人像。

10.根据权利要求8所述的方法，其特征在于，依据所述第二用户的视频帧，将第二用户的人像发送给与所述第二用户进行视频通话的第一用户的终端包括：

从所述第二用户的视频帧抠取第二用户的人像；

将抠取得到的第二用户的人像发送给与所述第二用户进行视频通话的第一用户的终端。

11.根据权利要求10所述的方法，其特征在于，该方法还包括：

检测第二用户的人像眼距，将检测得到的眼距信息提供给所述第一用户的终端。

12.根据权利要求11所述的方法，其特征在于，该方法还包括：

若服务器端无法检测得到第二用户的人像眼距，则向第二用户的终端返回无法获取第二用户的人像眼距的提示。

13.根据权利要求11所述的方法，其特征在于，该方法还包括：

若检测得到第二用户有多个眼距时，则在确定满足预设要求的眼距后，将所确定的眼距以及该眼距对应的第二用户的人像发送给第一用户的终端。

14.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-13中任一所述的方法。

15.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-13中任一所述的方法。