CN111654715B

CN111654715B - 直播的视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN111654715B
Application number: CN202010511057.3A
Authority: CN
Inventors: 李杨; 裴永鹏; 温其松
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2024-01-09
Anticipated expiration: 2040-06-08
Also published as: CN111654715A

Abstract

本发明提供了一种直播的视频处理方法、装置、电子设备及计算机可读存储介质；方法包括：获取直播中的待分享的视频图像；获取针对所述待分享的视频图像的发言者的人像视频图像；响应于针对所述人像视频图像的位置设定操作，确定所述人像视频图像相对于所述待分享的视频图像的位置；根据所述人像视频图像相对于所述待分享的视频图像的位置，在所述客户端本地将相同时间的所述待分享的视频图像和所述人像视频图像进行合成，得到合成视频图像；在所述客户端中呈现所述合成视频图像，并发送所述合成视频图像。通过本发明，能够在丰富直播过程中的画面表现的基础上节约性能开销。

Description

直播的视频处理方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术，尤其涉及一种直播的视频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

网络社交冲破了工业社会交往的限度，将人与人之间的关系网络化，表现为以各种社会化网络软件的网络社交的普及。网络社交的形态从最初的网络聊天衍变各种各样的丰富的形态，网络直播是目前非常重要的一种网络社交形态，通过网络直播，用户可以观看自己感兴趣的直播内容。

以在线教育的应用场景为例，随着在线教育的发展，越来越多的用户在线上完成学习教育。然而，为了丰富直播过程的画面表现力度，需要将授课画面和人像画面一起显示，相关技术中将两者作为独立的两路数据进行解码播放，带来较大的性能开销。

发明内容

本发明实施例提供一种直播的视频处理方法、装置、电子设备及计算机可读存储介质，能够在直播过程中的画面表现的基础上，节约性能开销。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种直播的视频处理方法，包括：

获取直播中的待分享的视频图像；

获取针对所述待分享的视频图像的发言者的人像视频图像；

响应于针对所述人像视频图像的位置设定操作，确定所述人像视频图像相对于所述待分享的视频图像的位置；

根据所述人像视频图像相对于所述待分享的视频图像的位置，在所述客户端本地将相同时间的所述待分享的视频图像和所述人像视频图像进行合成，得到合成视频图像；

在所述客户端中呈现所述合成视频图像，并发送所述合成视频图像。

本发明实施例提供一种直播的视频处理装置，包括：

获取模块，用于获取直播中的待分享的视频图像；

所述获取模块，还用于获取针对所述待分享的视频图像的发言者的人像视频图像；

设定模块，用于响应于针对所述人像视频图像的位置设定操作，确定所述人像视频图像相对于所述待分享的视频图像的位置；

合成模块，用于根据所述人像视频图像相对于所述待分享的视频图像的位置，在所述客户端本地将相同时间的所述待分享的视频图像和所述人像视频图像进行合成，得到合成视频图像；

呈现模块，用于在所述客户端中呈现所述合成视频图像；

发送模块，用于发送所述合成视频图像。

在上述方案中，所述直播的视频处理装置还包括：分离模块，用于将所述人像视频图像中的人体区域与背景区域进行分离；所述设定模块，用于响应于针对所述人体区域的位置设定操作，确定所述人体区域在所述待分享的视频图像中所嵌入的位置；所述合成模块，还用于根据所述人体区域在所述待分享的视频图像中所嵌入的位置，在所述客户端本地将所述人体区域嵌入到所述待分享的视频图像中；其中，对应所述人体区域的人像视频图像和所述待分享的视频图像是相同时间的。

在上述方案中，所述直播的视频处理装置还包括：所述渲染模块，用于对所述人体区域执行特效渲染操作，其中，所述特效渲染操作包括滤镜、美颜、贴纸和边缘过渡至少之一。

在上述方案中，所述合成模块，还用于在所述待分享的视频图像中建立人像窗口；在所述人像窗口中呈现相同时间的人像视频图像，并将所述人像视频图像中的背景区域设置为透明，或者，在所述人像窗口中绘制所述人体区域。

在上述方案中，所述合成模块，还用于在所述客户端本地将所述人像视频图像嵌入至与所述人像视频图像具有相同时间的所述待分享的视频图像；或者，在所述客户端本地将相同时间的所述人像视频图像和所述待分享的视频图像进行拼接。

在上述方案中，所述发送模块，还用于将所述合成视频图像发送至服务器，以使所述服务器将所述合成视频图像分发至观众的客户端，以使所述观众的客户端呈现所述合成视频图像。

在上述方案中，当所述人像视频图像以嵌入所述待分享的视频图像中的方式与所述待分享的视频图像合成时，所述直播的视频处理装置还包括：调整模块，用于将所述待分享的视频图像和所述人像视频图像合成之前，响应于针对所述人像视频图像的尺寸调整操作，更新所述人像视频图像在所述待分享的视频图像中的尺寸。

在上述方案中，当所述人像视频图像与所述待分享的视频图像以拼接的方式合成时，所述调整模块，还用于将所述待分享的视频图像和所述人像视频图像合成之前，响应于针对所述人像视频图像和/或所述待分享的视频图像的尺寸调整操作，更新所述人像视频图像的尺寸，和/或，更新所述待分享的视频图像的尺寸。

在上述方案中，当所述人像视频图像以嵌入所述待分享的视频图像中的方式与所述待分享的视频图像合成时，所述直播的视频处理装置还包括：避让模块，用于在所述待分享的视频图像中确定讲解区域，其中，所述讲解区域包括所述待分享的视频图像中正在被讲解的内容；确定所述人像视频图像在所述待分享的视频图像中的位置，和/或，确定所述人像视频图像的尺寸，以使所述人像视频图像避让所述讲解区域。

在上述方案中，所述避让模块，还用于响应于针对所述待分享的视频图像的选择操作，将被选择的区域确定为所述讲解区域；或者，在所述待分享的视频图像中自动识别所述讲解区域。

在上述方案中，所述避让模块，还用于通过以下方式至少之一确定所述讲解区域：识别所述待分享的视频图像中光标所在的位置，将以所述光标为中心的区域确定为所述讲解区域；在所述待分享的视频图像中确定所述发言者的视线的落点，将以所述落点为中心的区域确定为所述讲解区域；对所述发言者的音频信息进行语音识别得到讲话文本，将所述待分享的视频图像中包括与所述讲话文本相匹配的内容的区域确定为所述讲解区域。

在上述方案中，所述避让模块，还用于采集所述发言者的瞳孔和眼球角膜外表面的反射亮斑的位置；根据所述发言者的瞳孔和眼球角膜外表面的反射亮斑的位置，确定所述发言者的角膜反射向量；根据所述发言者的角膜反射向量，确定所述发言者观看所述待分享的视频图像时的视线方向；根据所述发言者观看所述待分享的视频图像时的视线方向，在所述待分享的视频图像中确定所述落点。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的直播的视频处理方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的直播的视频处理方法。

本发明实施例具有以下有益效果：

将待分享的视频图像和人像视频图像合成来显示，相较于分别解码待分享的视频图像和人像视频图像的画面数据，节约了性能开销，而且丰富了在线交互过程中的画面的信息表现力度，提高了直播过程的参与度；支持用户自由调整人像视频图像相对于待分享的视频图像的位置，能够避免人像视频图像遮挡待分享的视频图像，影响用户的观看体验。

附图说明

图1A和图1B是本发明实施例提供的直播的视频处理系统100的结构示意图；

图2是本发明实施例提供的电子设备500的结构示意图；

图3A、图3B和图3C是本发明实施例提供的直播的视频处理方法的流程示意图；

图4A和图4B是本发明实施例提供的直播的视频处理方法的流程示意图；

图5、图6、图7、图8和图9是本发明实施例提供的应用场景示意图；

图10是本发明实施例提供的直播的视频处理方法的流程示意图；

图11是本发明实施例提供的直播的视频处理方法的流程示意图；

图12是本发明实施例提供的应用场景示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)直播：在现场随着事件的发生、发展进程同步制作和发布信息，具有双向流通过程的信息网络发布方式。直播的形式可分为现场直播、演播室访谈式直播、文字图片直播、视音频直播或由电视(第三方)提供信源的直播。直播包括在线教育、购物直播和游戏直播等场景。

2)在线教育：和传统教育授课模式区别，指利用互联网技术，计算机音视频技术，把教师授课的画面和声音通过视频形式提供给学生进行学习。

3)两路视频授课：指使用两个连续变化的画面进行授课，往往一个画面是教师人像画面，另一个是授课画面，例如屏幕分享的内容、课件中的内容或视频中的内容等。一般情况下，两路视频授课需要更多的流量，且两路视频授课需要进行音画同步，部分平台上不支持两路视频画面编解码硬件加速等。

4)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

5)语音识别，或称自动语音识别(ASR，Automatic Speech Recognition)：其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如，按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，说话人识别及说话人确认尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

相关技术中，在线教育中通常只支持两路画面模式授课，即：一路大画面(或称授课画面，即待分享的视频图像)，包括教师授课的课件或者屏幕分享的内容；一路小画面(或称人像画面，即人像视频图像)，是归属于教师的终端的摄像头所采集的画面，该画面展示教师讲课的神态和表情。

相关技术存在以下技术问题：

1)两路画面直播，对用户终端的性能要求较高，需要对两个视频画面进行实时的视频编码，部分平台硬件只支持加速一路视频编码，无法同时加速两路视频编码。

2)同时观看两路视频画面时，需要解码两路视频流，增加了移动设备的耗电量。

3)大画面和小画面往往不重叠放置，导致界面布局灵活性较低，并且屏幕较小的移动设备同时呈现大画面和小画面时，两个画面之间的排布成为难点。

4)直播回放系统需要同时记录两个直播视频流，回放系统需要对两个视频流进行对齐录制和播放，增加了后台服务的存储成本和计算成本。

针对上述技术问题，本发明实施例提供一种直播的视频处理方法、装置、设备和计算机可读存储介质，能够在直播过程中同时呈现待分享的视频图像和发言者的人像视频图像。下面说明本发明实施例提供的直播的视频处理方法的示例性应用，本发明实施例提供的直播的视频处理方法可以由各种电子设备实施，例如，可以由终端单独实施，也可以由服务器和终端协同实施。

接下来，以由服务器和终端协同实施、应用场景是在线教育、且发言者是教师为例说明本发明实施例，参见图1A，图1A是本发明实施例提供的直播的视频处理系统100的结构示意图。其中，直播的视频处理系统100包括有：服务器200、网络300、终端410以及终端420，将分别进行说明。

下面，将结合图1A说明本发明实施例。

服务器200是客户端411和客户端421的后台服务器，用于接收归属于教师的客户端411(以下简称教师客户端)发送的待分享的视频图像和人像视频图像，并将待分享的视频图像和人像视频图像进行合成，以得到合成视频图像；还用于将合成视频图像发送至归属于学生的客户端421(以下简称学生客户端)。

网络300，用于作为服务器200和终端410之间、以及服务器200和终端420之间通信的媒介，可以是广域网或者局域网，又或者是二者的组合。

终端410，归属于教师，用于运行客户端411，客户端411是具备直播功能的客户端。客户端411，用于向服务器200发送待分享的视频图像和人像视频图像，还用于在人机交互界面中同时呈现待分享的视频图像和人像视频图像。

终端420，归属于学生，用于运行客户端421，客户端421是具备直播功能的客户端。客户端421，用于接收服务器200发送的合成视频图像，并在人机交互界面中呈现合成视频图像。

接下来，以由终端单独实施、应用场景是在线教育、且发言者是教师为例说明本发明实施例，参见图1B，图1B是本发明实施例提供的直播的视频处理系统100的结构示意图。

下面，将结合图1B说明本发明实施例。

服务器200是客户端411和客户端421的后台服务器，用于接收教师客户端411发送的合成视频图像，并将合成视频图像发送至学生客户端421。

终端410，归属于教师，用于运行客户端411，客户端411是具备直播功能的客户端。客户端411，用于将待分享的视频图像和人像视频图像进行合成，以得到合成视频图像，并在人机交互界面中呈现；还用于向服务器200发送合成视频图像。

需要说明的是，上述的发言者除了可以是教师之外，发言者还可以是在线教育过程中使用麦克风的用户(例如发言的学生等)。当然，当应用场景是在线会议时，发言者可以是会议过程中使用麦克风的用户，也可以是会议的主持人(即发起人)。

本发明实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如在线教育的门户网站。

作为示例，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端410和终端420可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

本发明实施例可以应用于多种直播场景中，上述的待分享的视频图像可以是屏幕分享的内容(即屏幕分享区域中的内容)，也可以是幻灯片(PPT，Powe rPoint)中的内容或视频中的内容。

接下来说明本发明实施例提供的电子设备的结构，电子设备可以是图1所示的终端410或420，参见图2，图2是本发明实施例提供的电子设备500的结构示意图，图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的直播的视频处理装置可以采用软件方式实现，图2示出了存储在存储器550中的直播的视频处理装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、设定模块5552、合成模块5553、呈现模块5554以及发送模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

下面，以由图1A和图1B中的服务器200、终端410和终端420协同实施本发明实施例提供的直播的视频处理方法为例说明本发明实施例。参见图3A，图3A是本发明实施例提供的直播的视频处理方法的流程示意图，将结合图3A示出的步骤进行说明。

在步骤S101中，客户端获取直播中的待分享的视频图像。

这里，客户端可以是具备直播功能或视频播放功能的应用程序(APP，Application)，例如直播APP；还可以是具备直播功能或视频播放功能的浏览器；还可以是能够嵌入至任意APP中的直播小程序。待分享的视频图像可以是屏幕分享的内容(即屏幕分享区域中的内容)，也可以是幻灯片中的内容或视频中的内容。

当待分享的视频图像是屏幕分享的内容时，客户端调用终端的相应服务(例如屏幕抓取服务)，采集呈现模块553在屏幕分享区域中呈现的图像，并确定为待分享的视频图像。

当待分享的视频图像是幻灯片中的内容时，客户端将幻灯片中的演示文稿确定为待分享的视频图像。

当待分享的视频图像是视频中的内容时，客户端将视频帧确定为待分享的视频图像。

以应用场景是在线教育为例，在线教育的待分享的视频图像可以是教师屏幕分享的内容，也可以是教师授课的课件内容，例如，幻灯片中的内容或视频中的内容。

在一些实施例中，客户端响应于直播触发操作，在直播界面中呈现待分享的视频图像。

作为示例，客户端在直播界面中呈现直播的控制功能(例如，音量控制、停止播放或切换主播)、分享功能、以及字幕内容等。

在步骤S102中，客户端获取针对待分享的视频图像的发言者的人像视频图像。

这里，发言者可以是指使用麦克风的用户，也可以是指直播的发起者。以在线教育为例，发言者包括教师和学生至少之一。以在线会议为例，发言者可以是会议过程中使用麦克风的用户，也可以是会议的主持人(即发起人)。

下面，以应用场景是在线教育为例。

在一些实施例中，客户端通过输入处理模块554中的摄像装置(例如摄像头)采集在线教育过程中教师的人像视频图像。

在另一些实施例中，客户端通过输入处理模块554中的摄像装置(例如摄像头)采集在线教育过程中使用麦克风的用户的人像视频图像。

这里，用户包括教师和学生至少之一。

作为示例，客户端默认采集在线教育过程中教师的人像视频图像；或者，当在线教育过程中学生使用麦克风发言、且教师未使用麦克风讲话时，客户端采集使用麦克风的学生的人像视频图像；或者，当在线教育过程中学生使用麦克风发言、且教师使用麦克风讲话时，客户端同时采集使用麦克风的学生和教师的人像视频图像。如此，可以根据直播过程中的发言状况采集相应的人像视频图像以进行合成，还能够使发言者(例如教师)实时观察观众(例如发言学生)的表情神态，从而能够实施针对性的讲解。

在步骤S103中，客户端将相同时间的待分享的视频图像和人像视频图像进行合成，得到合成视频图像。

这里，相同时间的待分享的视频图像和人像视频图像是指客户端在同一时间获取到的图像。

在一些实施例中，还可以将对应待分享的视频图像的音频内容和对应人像视频图像的音频内容进行合成，得到合成音频内容。如此，能够使发言者所讲的内容、人像视频图像与待分享的视频图像中的内容同步呈现。

作为一个示例，当待分享的视频图像是不具备相应的音频内容的图像，例如，屏幕分享的内容或PPT中的内容时，合成音频内容是对应人像视频图像的音频内容。

作为另一个示例，当待分享的视频图像是具备相应的音频内容的图像，例如，视频中的内容时，合成音频内容可以是对应人像视频图像的音频内容，也可以是对应待分享的视频图像的音频内容；还可以是将对应人像视频图像的音频内容和对应待分享的视频图像的音频内容叠加后的音频内容。

这里，上述的三种合成音频内容的方式是择一选用的，选择的方式可以是响应于用户的操作而确定的，也可以是默认设置的。

在一些实施例中，客户端可以调用终端的相应服务(例如，画面合成服务)，通过终端完成待分享的视频图像和人像视频图像的合成过程。客户端也可以调用服务器的相应服务(例如，画面合成服务)，通过服务器完成待分享的视频图像和人像视频图像的合成过程。

如此，步骤S103的替换步骤可以是：客户端将相同时间的待分享的视频图像和人像视频图像发送至服务器；服务器将相同时间的待分享的视频图像和人像视频图像合成，获得合成视频图像，并将合成视频图像发送至客户端。

下面以在线教育为例，结合图1A和图1B具体说明上述两种方案：

在一些实施例中，客户端将待分享的视频图像和人像视频图像合成，获得合成视频图像；将合成视频图像发送至服务器，以使服务器将合成视频图像分发至观众的客户端(例如学生客户端)。

这里，观众的客户端可以是指直播间中除发言者之外的其余用户所对应的客户端；也可以是直播间中包括发言者的所有用户所对应的客户端。

作为承接图1B的示例，参见图3B，图3B是本发明实施例提供的直播的视频处理方法的流程示意图。图3B中，教师客户端411将待分享的视频图像和人像视频图像合成，获得合成视频图像，并将合成视频图像发送至服务器200；服务器200将合成视频图像分发至学生客户端421。

以待分享的视频图像是教师屏幕分享的内容为例，教师客户端411将人像视频图像嵌入至屏幕分享区域；抓取屏幕分享区域中的内容发送至服务器，以使服务器将屏幕分享区域中的内容分享至学生客户端421。

本发明实施例中，客户端在直播过程中实时将待分享的视频图像和人像视频图像合成，能够减小直播过程中服务器的负载压力和计算成本；客户端将合成视频图像以一路视频流的形式经由服务器发送至观众的客户端，能够解决相关技术中存在的“两路画面直播需要对两个视频画面进行实时的视频编码，部分平台硬件只支持加速一路视频编码，无法同时加速两路视频编码”的技术问题，使用户仅解码一路视频流即可同时观看到两路画面(即，待分享的视频图像和人像视频图像)，降低用户终端的硬件使用门槛，减小了用户设备的解码压力和耗电量。

在另一些实施例中，客户端将相同时间的待分享的视频图像和人像视频图像发送至服务器，以使服务器将相同时间的待分享的视频图像和人像视频图像进行合成，并将合成视频图像发送至观众的客户端。

作为承接图1A的示例，参见图3C，图3C是本发明实施例提供的直播的视频处理方法的流程示意图。图3C中，教师客户端411将待分享的视频图像和人像视频图像发送至服务器200；服务器200将待分享的视频图像和人像视频图像进行合成，并将合成视频图像发送至学生客户端421。

以待分享的视频图像是教师授课的课件内容为例，教师客户端411将人像视频图像和课件内容发送至服务器，以使服务器将人像视频图像和课件内容进行合成，并将合成视频图像发送至学生客户端421。

本发明实施例中，在服务器合成待分享的视频图像和人像视频图像，能够减小直播过程中客户端的负载压力和计算成本；服务器将合成视频图像以一路视频流的形式发送至观众的客户端，能够解决相关技术中存在的“两路画面直播需要对两个视频画面进行实时的视频编码，部分平台硬件只支持加速一路视频编码，无法同时加速两路视频编码”的技术问题，使用户仅解码一路视频流即可同时观看到两路画面(即，待分享的视频图像和人像视频图像)，降低用户终端的硬件使用门槛，减小了用户设备的解码压力和耗电量。

接下来，将以客户端调用终端的相应服务(例如，画面合成服务)，通过终端完成合成待分享的视频图像和人像视频图像的过程，说明合成待分享的视频图像和人像视频图像的具体实现方式。

在一些实施例中，客户端在客户端本地将相同时间的待分享的视频图像和人像视频图像进行合成，得到合成视频图像。

作为一个示例，客户端在客户端本地将人像视频图像嵌入至与人像视频图像具有相同时间的待分享的视频图像，以获得合成视频图像。

这里，人像视频图像可以具有透明度，从而不会完全遮挡待分享的视频图像；人像视频图像可以与待分享的视频图像的尺寸相同，也可以小于待分享的视频图像的尺寸；人像视频图像的尺寸和待分享的视频图像的尺寸是可以调整的。

举例来说，当用户未设定人像视频图像在待分享的视频图像中的位置、人像视频图像的透明度、以及人像视频图像的尺寸时，采用默认的人像视频图像在待分享的视频图像中的位置、人像视频图像的透明度、以及人像视频图像的尺寸，将人像视频图像嵌入至待分享的视频图像中进行合成，以获得合成视频图像。

在一些实施例中，当人像视频图像以嵌入待分享的视频图像中的方式与待分享的视频图像合成时，还包括：将待分享的视频图像和人像视频图像合成之前，客户端响应于针对人像视频图像的尺寸调整操作，更新人像视频图像嵌入到待分享的视频图像中的尺寸。

这里，人像视频图像嵌入到待分享的视频图像中的尺寸可以是默认设定的尺寸，也可以是和待分享的视频图像的尺寸之间是默认比例的尺寸。

在一些实施例中，当人像视频图像以嵌入待分享的视频图像中的方式与待分享的视频图像合成时，还包括：将待分享的视频图像和人像视频图像合成之前，客户端在待分享的视频图像中确定讲解区域；确定人像视频图像在待分享的视频图像中的位置，和/或，确定人像视频图像的尺寸，以使人像视频图像避让讲解区域。

这里，待分享的视频图像包括讲解区域和非讲解区域；讲解区域包括待分享的视频图像中正在被讲解的内容。如此，能够根据发言者所讲解的内容自适应调整人像视频图像在待分享的视频图像中的位置、以及调整人像视频图像的尺寸，使人像视频图像不遮挡发言者正在讲解的内容，从而使用户在观看人像视频图像的同时，不影响观看待分享的视频图像中正在被讲解的内容。

作为一个示例，客户端在待分享的视频图像中确定讲解区域的过程具体是：客户端响应于针对待分享的视频图像的选择操作，将被选择的区域确定为讲解区域。

举例来说，教师可以针对待分享的视频图像进行圈定操作，以在待分享的视频图像中圈定讲解区域，其中，讲解区域可以是规则的形状，例如矩形或圆形等，也可以是不规则的形状。圈定操作可以是绘制闭合形状的操作，也可以是划线的操作。

作为另一个示例，客户端在待分享的视频图像中确定讲解区域的过程可以是：客户端在待分享的视频图像中自动识别讲解区域。

这里，客户端在待分享的视频图像中自动识别讲解区域的具体实现方式包括：

(1)客户端识别待分享的视频图像中光标所在的位置，将以光标为中心的区域确定为讲解区域。

这里，光标可以是鼠标或触摸点。具体的，当终端是电脑时，光标所在的位置是鼠标所在的位置；当终端是手机或平板电脑等移动设备时，光标所在的位置是屏幕中的触摸点(例如手指或触摸笔)所在的位置。以光标为中心的区域可以是规则的形状，例如圆形或矩形等；也可以是不规则的形状。区域的尺寸可以是默认或用户自定义的固定尺寸；也可以是根据待分享的视频图像的尺寸所确定的尺寸，例如，区域的尺寸和待分享的视频图像的尺寸呈正比。区域的尺寸可以根据光标的特定动作(例如，连续性的上滑、连续性的下滑或连续性的多次点击等)进行不同比例的放大或缩小。

如此，能够实时且准确的根据发言者的光标所在的位置确定当前的讲解区域，以避免人像视频图像遮挡讲解区域，影响观看者的观看体验。

(2)客户端在待分享的视频图像中确定发言者的视线的落点，将以落点为中心的区域确定为讲解区域。

这里，以落点为中心的区域可以是规则的形状，例如圆形或矩形等；也可以是不规则的形状。区域的尺寸可以是默认或用户自定义的固定尺寸；也可以是根据待分享的视频图像的尺寸所确定的尺寸，例如，区域的尺寸和待分享的视频图像的尺寸呈正比。区域的尺寸可以根据发言者的特定动作(例如，挥手、或连续性眨眼等)进行不同比例的放大或缩小，例如，当发言者连续眨眼三次时，将区域的尺寸放大；当发言者连续眨眼两次时，将区域的尺寸缩小；当发言者向右挥手时，将区域的尺寸放大；当发言者向左挥手时，将区域的尺寸缩小。

在一些实施例中，客户端通过眼动追踪系统，在待分享的视频图像中确定发言者的视线的落点，将以落点为中心的区域确定为讲解区域。

作为示例，客户端调用终端的摄像装置(例如摄像头)采集发言者的瞳孔和眼球角膜外表面的反射亮斑的位置；根据发言者的瞳孔和眼球角膜外表面的反射亮斑的位置，在待分享的视频图像中确定对应于发言者视线的落点。

这里，眼球角膜外表面的反射亮斑是指普尔钦斑(Purkinje Image)，即眼球角膜上的一个亮光点，由进入瞳孔的光线在角膜外表面上反射(CR，Corneal Reflection)而产生的。

根据发言者的瞳孔和眼球角膜外表面的反射亮斑的位置，在待分享的视频图像中确定对应于发言者的视线的落点的原理是：由于终端摄像头的位置固定，终端屏幕光源的位置也固定、眼球中心位置不变，普尔钦斑的绝对位置并不随眼球的转动而变化。但其相对于瞳孔和眼球的位置则是在不断变化的，例如，当发言者盯着摄像头时，普尔钦斑就位于发言者的瞳孔之间；而当发言者抬起头时，普尔钦斑就在发言者的瞳孔下方。

如此，只要实时定位眼睛图像上的瞳孔和普尔钦斑的位置，计算出角膜反射向量，便能利用几何模型，估算得到发言者的视线方向。再基于前期定标过程(即让发言者注视终端屏幕上特定的点)中所建立的发言者眼睛特征与终端屏幕呈现待分享的视频图像之间的关系，即可在待分享的视频图像中确定对应于发言者的视线的落点。

举例来说，客户端根据发言者的瞳孔和眼球角膜外表面的反射亮斑的位置，确定发言者的角膜反射向量；根据发言者的角膜反射向量，确定发言者观看待分享的视频图像时的视线方向；根据发言者观看待分享的视频图像时的视线方向，在待分享的视频图像中确定落点。如此，能够实时且准确的根据发言者的视线确定当前的讲解区域，以避免人像视频图像遮挡讲解区域，影响观看者的观看体验。

(3)客户端对发言者针对待分享的视频图像讲解的音频信息进行语音识别得到讲话文本，将待分享的视频图像中包括与讲话文本相匹配的内容的区域确定为讲解区域。

在一些实施例中，客户端调用麦克风实时采集发言者针对待分享的视频图像讲解的音频信息；对音频信息进行语音识别，以得到对应音频信息的讲话文本；将讲话文本和待分享的视频图像中包括的内容进行比对，在待分享的视频图像中将与讲话文本相匹配的内容的区域确定为讲解区域。

以在线教育为例，待分享的视频图像中包括“第一章节的内容”和“第二章节的内容”，客户端实时采集教师针对待分享的视频图像讲解的音频信息，并对音频信息进行语音识别，得到对应音频信息的讲话文本是“第二章节的内容”，因此，客户端将待分享的视频图像中展示“第二章节的内容”的区域确定为讲解区域。

如此，能够实时且准确的根据发言者的语音确定当前的讲解区域，以避免人像视频图像遮挡讲解区域，影响观看者的观看体验。

(4)客户端将待分享的视频图像中的特定区域确定为讲解区域。

这里，特定区域包括以下至少之一：非空白区域；中央区域；包括具有特殊字体格式的内容的区域。

以待分享的视频图像是教师屏幕分享的内容为例，客户端将屏幕分享区域的中央区域确定为讲解区域。

以待分享的视频图像是PPT的内容为例，客户端将PPT中的具有下划线、粗体、或斜体等特殊字体格式的内容所在的区域确定为讲解区域；或者，将PPT中的非空白区域(即包括文字或图片等元素的区域)确定为讲解区域。

以待分享的视频图像是视频的内容为例，客户端将视频中的前景确定为讲解区域，这里，前景是视频画面中位于主体前面或靠近前沿的人或物，例如，当视频是教师提前录制的视频、且视频中包括教师时，视频中的前景是教师所在的区域。

本发明实施例针对待分享的视频图像的类型灵活在待分享的视频图像中确定讲解区域，能够准确避免人像视频图像遮挡讲解区域，影响观看者的观看体验。

在一些实施例中，上述在待分享的视频图像中确定讲解区域的四种方式分别提供相应的入口(例如按钮)供用户选择。

需要说明的是，讲解区域可以由客户端调用相应的云服务(例如，区域识别服务)来实现讲解区域的识别过程。当然，当客户端调用服务器的相应服务(例如，画面合成服务)，通过服务器完成合成待分享的视频图像和人像视频图像的过程时，也可以是由服务器调用相应的云服务(例如，区域识别服务)来实现讲解区域的识别过程。

作为示例，上述的云服务可以是公有云(Public Cloud)或私有云，公有云通常指第三方提供商为用户提供的能够使用的云，公有云一般可通过Internet使用，可能是免费或成本低廉的，公有云的核心属性是共享资源服务。这种云有许多实例，可在当今整个开放的公有网络中提供服务。私有云(Private Cloud)是将云基础设施与软硬件资源创建在防火墙内，以供机构或企业内各部门共享数据中心内的资源。创建私有云，除了硬件资源外，一般还有云设备(IaaS，Infrastructure as a Service，基础设施即服务)软件。

私有云计算同样包含云硬件、云平台、云服务三个层次。不同的是，云硬件是用户自己的个人电脑或服务器，而非云计算厂商的数据中心。云计算厂商构建数据中心的目的是为千百万用户提供公共云服务，因此需要拥有几十上百万台服务器。私有云计算，对个人来说只服务于亲朋好友，对企业来说只服务于本企业员工以及本企业的客户和供应商，因此个人或企业自己的个人电脑或服务器已经足够用来提供云服务。

作为一个示例，当人像视频图像以嵌入待分享的视频图像中的方式与待分享的视频图像合成时，还包括：客户端呈现预览界面，其中，预览界面中包括待分享的视频图像、以及嵌入至待分享的视频图像中的人像视频图像；响应于针对人像视频图像的操作，在预览界面中，更新人像视频图像在待分享的视频图像中的位置，和/或，更新人像视频图像的尺寸；将待分享的视频图像、人像视频图像、人像视频图像在待分享的视频图像中的位置、以及人像视频图像的尺寸发送至服务器，以使服务器根据人像视频图像在待分享的视频图像中的位置、以及人像视频图像的尺寸，将人像视频图像嵌入至待分享的视频图像。

本发明实施例中，将人像视频图像和待分享的视频图像重叠放置，支持用户自由调整人像视频图像的位置和尺寸，提高界面布局的灵活性，尤其能够使屏幕较小的移动设备在同时呈现人像视频图像和待分享的视频图像时具备良好的呈现效果。

作为另一个示例，客户端在客户端本地将相同时间的人像视频图像和待分享的视频图像进行拼接，以获得合成视频图像。

在一些实施例中，当人像视频图像与待分享的视频图像以拼接的方式合成时，还包括：将待分享的视频图像和人像视频图像合成之前，响应于针对人像视频图像和/或待分享的视频图像的尺寸调整操作，更新人像视频图像的尺寸，和/或，更新待分享的视频图像的尺寸。

这里，人像视频图像的尺寸可以是默认设定的尺寸，也可以是和待分享的视频图像的尺寸之间是默认比例的尺寸。待分享的视频图像的尺寸可以是客户端调用终端的摄像装置采集的图像的原始尺寸，也可以是根据客户端和服务器之间传输链路的速度、以及抖动频率所确定的尺寸，其中，待分享的视频图像的尺寸和传输链路的速度呈正比，待分享的视频图像的尺寸和传输链路的抖动频率呈反比。

在一些实施例中，当人像视频图像与待分享的视频图像以拼接的方式合成时，还包括：将待分享的视频图像和人像视频图像合成之前，响应于针对人像视频图像和/或待分享的视频图像的拼接操作，确定人像视频图像和待分享的视频图像之间的拼接样式。

这里，上述的人像视频图像和待分享的视频图像之间的拼接样式不仅可以指示人像视频图像与待分享的视频图像是上下拼接、左右拼接或对角线拼接等方式；还可以指示人像视频图像位于待分享的视频图像的上方、下方、左方、右方、右上角或左下角等位置。

作为一个示例，当人像视频图像与待分享的视频图像以拼接的方式合成时，还包括：客户端呈现预览界面，其中，预览界面中包括待分享的视频图像和人像视频图像，其中，待分享的视频图像和人像视频图像是以拼接的方式独立呈现于预览界面中；响应于针对人像视频图像和/或待分享的视频图像的操作，在预览界面中，更新人像视频图像和待分享的视频图像之间的拼接方式，和/或，更新人像视频图像的尺寸，和/或，更新待分享的视频图像的尺寸；将待分享的视频图像、人像视频图像、人像视频图像和待分享的视频图像之间的拼接样式、人像视频图像的尺寸以及待分享的视频图像的尺寸发送至服务器，以使服务器根据人像视频图像和待分享的视频图像之间的拼接样式、人像视频图像的尺寸以及待分享的视频图像的尺寸，将人像视频图像和待分享的视频图像以拼接的方式合成。

本发明实施例中，将人像视频图像和待分享的视频图像不重叠放置，能够保证屏幕中呈现人像视频图像和待分享的视频图像的完整性。

在步骤S104中，客户端呈现合成视频图像，并发送合成视频图像。

在一些实施例中，客户端呈现合成视频图像，并将合成视频图像发送至服务器，以使服务器将合成视频图像分发至观众的客户端，以使观众的客户端呈现合成视频图像。

本发明实施例中，只需要传输一路视频流即可实现同时在直播界面中观看待分享的视频图像和发言者的人像视频图像的目的，不仅能够提高用户在直播过程中的参与度，而且能够降低用户终端的硬件使用门槛，减小后台服务的运行成本。直播回放系统只需要记录一路视频流即可实现回放，减小了回放系统的存储成本和计算成本。

参见图4A，图4A是本发明实施例提供的直播的视频处理方法的流程示意图，基于图3A，在步骤S103之前可以包括步骤S105，步骤S103可以用步骤S106替换。

在步骤S105中，客户端将人像视频图像中的人体区域与背景区域进行分离。

这里，人体区域包括以下至少之一：头像；躯干；四肢。

在一些实施例中，客户端识别人像视频图像中的人体轮廓，并在人像视频图像中，将人体轮廓包含的人体区域与背景区域进行分离。

在一些实施例中，客户端可以调用终端的相应服务(例如，人像分割服务)，通过终端完成人像分割的过程。客户端也可以调用服务器的相应服务(例如，人像分割服务)，通过服务器完成人像分割的过程。

以客户端识别人像视频图像中的人体轮廓为例，客户端将人像视频图像划分为多个候选框；根据每个候选框的特征向量，预测每个候选框中包括人体轮廓的概率；在多个候选框中选取概率超过概率阈值的目标候选框；确定目标候选框中包括的人体轮廓。

在步骤S106中，客户端在客户端本地将人体区域嵌入到待分享的视频图像中，得到合成视频图像。

这里，对应人体区域的人像视频图像和待分享的视频图像是相同时间的。

在一些实施例中，客户端可以调用终端的相应服务(例如，画面合成服务)，通过终端完成人体区域和人像视频图像的合成过程。客户端也可以调用服务器的相应服务(例如，画面合成服务)，通过服务器完成人体区域和人像视频图像的合成过程。

如此，步骤S106的替换方案可以是：客户端将待分享的视频图像和分离后的人体区域发送至服务器；服务器将人体区域嵌入至待分享的视频图像中，获得合成视频图像，并将合成视频图像发送至客户端。

这里，将人体区域嵌入至待分享的视频图像的具体实现方式和上述的将人像视频图像嵌入至待分享的视频图像的具体实现方式类似。

接下来，将以客户端调用终端的相应服务(例如，画面合成服务)，通过终端完成将人体区域嵌入至待分享的视频图像的过程，说明合成待分享的视频图像和人体区域的具体实现方式。

在一些实施例中，将待分享的视频图像和人体区域合成之前，还包括：客户端响应于针对人体区域的位置设定操作，确定人体区域在待分享的视频图像中所嵌入的位置。步骤S106可以是：客户端根据人体区域在待分享的视频图像中所嵌入的位置，在客户端本地将人体区域嵌入到待分享的视频图像中。

在一些实施例中，将待分享的视频图像和人体区域合成之前，还包括：客户端响应于针对人体区域的尺寸调整操作，更新人体区域嵌入到待分享的视频图像中的尺寸。

举例来说，图6中，教师可以拖动人体区域503，更改人体区域503在屏幕的位置，以避免遮挡授课内容。图7中，教师可以通过尺寸调整选项框504中的选项调整人体区域503的大小，以对教师的头像放大或缩小。

在一些实施例中，将待分享的视频图像和人体区域合成之前，客户端在待分享的视频图像中确定讲解区域；确定人体区域在待分享的视频图像中的位置，和/或，确定人体区域的尺寸，以使人体区域避让讲解区域。

这里。客户端在待分享的视频图像中确定讲解区域的过程和上述类似，将不再进行赘述。

本发明实施例中，将人体区域和待分享的视频图像重叠放置，支持用户自由调整人体区域的位置和尺寸，提高界面布局的灵活性，尤其能够使屏幕较小的移动设备在同时呈现人体区域和待分享的视频图像时具备良好的呈现效果。

在一些实施例中，客户端在待分享的视频图像中建立人像窗口；在人像窗口中呈现人像视频图像，并将人像视频图像中的背景区域设置为透明。

举例来说，图11中，客户端首先创建人像窗口，设置人像窗口属性，将人像窗口属性设置为分层窗口(LayeredWindow)；然后在人像窗口中实时加载ARGB模式的人像视频图像，并在人像窗口中将背景区域设置为透明，以在人像窗口中显示异形的人体区域。

在一些实施例中，客户端在待分享的视频图像中建立人像窗口；在人像窗口中绘制人体区域。

这里，人像窗口的形状和人体区域的形状相同。如此，能够直接将人体区域完整嵌入至人像窗口中，无需将人像窗口中除人体区域的部分设置为透明，即可在待分享的视频图像中显示异形的人体区域，节省操作步骤。

本发明实施例中将分离后的人体区域和待分享的视频图像进行合成，在保证用户能够同时观看到人像部分的基础上，极大程度的减小人像部分对待分享的视频图像的遮挡。

在一些实施例中，在步骤S106之前，还可以包括：对人体区域执行特效渲染操作，其中，特效渲染操作包括滤镜、美颜、贴纸和边缘过渡至少之一。

举例来说，图8中，当教师触发美颜按钮505时，在屏幕分享区域501中呈现美颜选项框506，并通过美颜选项框506中的选项对人体区域503进行美颜处理，例如，美白、磨皮或去黄等。如此，能够满足教师对于形象上的个性化需求

参见图4B，图4B是本发明实施例提供的直播的视频处理方法的流程示意图，基于图3A，在步骤S103之前可以包括步骤S107，步骤S103可以用步骤S108替换。

在步骤S107中，客户端响应于针对人像视频图像的位置设定操作，确定人像视频图像相对于待分享的视频图像的位置。

在一些实施例中，当人像视频图像与待分享的视频图像以拼接的方式合成时，人像视频图像相对于待分享的视频图像的位置是指人像视频图像拼接于待分享的视频图像的上方、下方、左方、右方、右上角或左下角等位置。

在另一些实施例中，当人像视频图像以嵌入待分享的视频图像中的方式与待分享的视频图像合成时，人像视频图像相对于待分享的视频图像的位置是指人像视频图像嵌入至待分享的视频图像中的位置。

在一些实施例中，当人像视频图像以嵌入待分享的视频图像中的方式与待分享的视频图像合成时，在步骤S107之前，还包括：客户端在待分享的视频图像中确定讲解区域；确定人像视频图像在待分享的视频图像中的位置，和/或，确定人像视频图像的尺寸，以使人像视频图像避让讲解区域。

这里，客户端在待分享的视频图像中确定讲解区域的具体实现方式和步骤S103中的实施例一样，在此将不再进行赘述。

作为示例，客户端首先在待分享的视频图像中确定讲解区域，并以避让讲解区域的方式在待分享的视频图像嵌入人像视频图像；然后响应于用户针对人像视频图像的位置设定操作，调整人像视频图像在待分享的视频图像中的位置。如此，在获得良好的显示效果的同时，能够减小用户针对人像视频图像的调整操作，提高用户的操作体验。

在一些实施例中，当人像视频图像以嵌入待分享的视频图像中的方式与待分享的视频图像合成时，在步骤S107之后，还包括：客户端在待分享的视频图像中确定讲解区域；确定人像视频图像在待分享的视频图像中的位置，和/或，确定人像视频图像的尺寸，以使人像视频图像避让讲解区域。

作为示例，客户端首先响应于用户针对人像视频图像的位置设定操作，确定人像视频图像在待分享的视频图像中的位置；然后在待分享的视频图像中确定讲解区域；当人像视频图像在待分享的视频图像中的位置位于讲解区域内时，调整人像视频图像在待分享的视频图像中的位置，以使人像视频图像避让讲解区域。如此，在获得良好的显示效果的同时，能够减小用户针对人像视频图像的调整操作，提高用户的操作体验。

在步骤S108中，客户端根据人像视频图像相对于待分享的视频图像的位置，将相同时间的待分享的视频图像和人像视频图像进行合成，得到合成视频图像。

在一些实施例中，客户端可以调用终端的相应服务(例如，画面合成服务)，通过终端完成待分享的视频图像和人像视频图像的合成过程。

作为示例，客户端根据人像视频图像相对于待分享的视频图像的位置，在客户端本地将相同时间的待分享的视频图像和人像视频图像进行合成，得到合成视频图像。

在一些实施例中，客户端也可以调用服务器的相应服务(例如，画面合成服务)，通过服务器完成待分享的视频图像和人像视频图像的合成过程。

如此，步骤S108的替换步骤可以是：客户端将相同时间的待分享的视频图像和人像视频图像、以及人像视频图像相对于待分享的视频图像的位置发送至服务器；服务器根据人像视频图像相对于待分享的视频图像的位置，将待分享的视频图像和人像视频图像合成，获得合成视频图像，并将合成视频图像发送至客户端。

本发明实施例支持用户调整人像视频图像相对于待分享的视频图像的位置，能够避免人像视频图像遮挡待分享的视频图像，影响用户的观看体验。

下面，以应用场景是在线教育为例说明本发明实施例所提供的直播的视频处理方法。

相关技术中，在线教育中通常只支持两路画面模式授课，即：一路大画面(即待分享的视频图像)，包括教师授课的课件或者屏幕分享的内容；一路小画面(即人像视频图像)，是归属于教师的终端的摄像头所采集的画面，该画面展示教师讲课的神态和表情。

Claims

1.一种直播的视频处理方法，应用于客户端，其特征在于，所述方法包括：

获取直播中的待分享的视频图像，其中，所述待分享的视频图像包括讲解区域和非讲解区域，所述讲解区域包括所述待分享的视频图像中正在被讲解的内容，所述讲解区域是以下区域中的任意一种：所述待分享的视频图像中以光标为中心的区域，以所述待分享的视频图像中发言者的视线的落点为中心的区域，与所述待分享的视频图像中发言者的讲话文本匹配的内容所在的区域；

获取针对所述待分享的视频图像的发言者的人像视频图像，其中，所述发言者包括使用麦克风的用户和所述直播的发起者至少之一；

响应于针对所述人像视频图像的位置设定操作，确定所述人像视频图像相对于所述待分享的视频图像的位置，其中，所述位置用于使所述人像视频图像避让所述讲解区域，所述人像视频图像具有透明度，所述人像视频图像的尺寸小于或等于所述视频图像的尺寸；

根据所述人像视频图像相对于所述待分享的视频图像的位置，在所述客户端本地将所述人像视频图像嵌入至与所述人像视频图像具有相同时间的所述待分享的视频图像，得到合成视频图像；

2.根据权利要求1所述的方法，其特征在于，

当所述人像视频图像以嵌入所述待分享的视频图像中的方式与所述待分享的视频图像合成时，所述方法还包括：

将所述人像视频图像中的人体区域与背景区域进行分离；

所述响应于针对所述人像视频图像的位置设定操作，确定所述人像视频图像相对于所述待分享的视频图像的位置，包括：

响应于针对所述人体区域的位置设定操作，确定所述人体区域在所述待分享的视频图像中所嵌入的位置；

所述根据所述人像视频图像相对于所述待分享的视频图像的位置，在所述客户端本地将所述人像视频图像嵌入至与所述人像视频图像具有相同时间的所述待分享的视频图像，包括：

根据所述人体区域在所述待分享的视频图像中所嵌入的位置，在所述客户端本地将所述人体区域嵌入到所述待分享的视频图像中；

其中，对应所述人体区域的人像视频图像和所述待分享的视频图像是相同时间的。

3.根据权利要求2所述的方法，其特征在于，在所述将所述人体区域嵌入到所述待分享的视频图像中之前，所述方法还包括：

对所述人体区域执行特效渲染操作，其中，所述特效渲染操作包括滤镜、美颜、贴纸和边缘过渡至少之一。

4.根据权利要求2所述的方法，其特征在于，所述将所述人体区域嵌入到所述待分享的视频图像中，包括：

在所述待分享的视频图像中建立人像窗口；

在所述人像窗口中呈现相同时间的人像视频图像，并将所述人像视频图像中的背景区域设置为透明，或者，

在所述人像窗口中绘制所述人体区域。

5.根据权利要求1所述的方法，其特征在于，所述发送所述合成视频图像，包括：

将所述合成视频图像发送至服务器，以使

所述服务器将所述合成视频图像分发至观众的客户端，以使所述观众的客户端呈现所述合成视频图像。

6.根据权利要求1所述的方法，其特征在于，

将所述待分享的视频图像和所述人像视频图像合成之前，响应于针对所述人像视频图像的尺寸调整操作，更新所述人像视频图像嵌入到所述待分享的视频图像中的尺寸。

7.根据权利要求1所述的方法，其特征在于，

当所述人像视频图像以嵌入所述待分享的视频图像中的方式与所述待分享的视频图像合成时，在所述响应于针对所述人像视频图像的位置设定操作，确定所述人像视频图像相对于所述待分享的视频图像的位置之前，所述方法还包括：

在所述待分享的视频图像中确定所述讲解区域；

确定所述人像视频图像在所述待分享的视频图像中的位置，和/或，确定所述人像视频图像的尺寸，以使所述人像视频图像避让所述讲解区域。

8.根据权利要求7所述的方法，其特征在于，所述在所述待分享的视频图像中确定所述讲解区域，包括：

响应于针对所述待分享的视频图像的选择操作，将被选择的区域确定为所述讲解区域；

或者，

在所述待分享的视频图像中自动识别所述讲解区域。

9.根据权利要求8所述的方法，其特征在于，所述在所述待分享的视频图像中自动识别所述讲解区域，包括：

通过以下方式至少之一确定所述讲解区域：

识别所述待分享的视频图像中光标所在的位置，将以所述光标为中心的区域确定为所述讲解区域；

在所述待分享的视频图像中确定所述发言者的视线的落点，将以所述落点为中心的区域确定为所述讲解区域；

对所述发言者的音频信息进行语音识别得到讲话文本，将所述待分享的视频图像中包括与所述讲话文本相匹配的内容的区域确定为所述讲解区域。

10.根据权利要求9所述的方法，其特征在于，所述在所述待分享的视频图像中确定所述发言者的视线的落点，包括：

采集所述发言者的瞳孔和眼球角膜外表面的反射亮斑的位置；

根据所述发言者的瞳孔和眼球角膜外表面的反射亮斑的位置，确定所述发言者的角膜反射向量；

根据所述发言者的角膜反射向量，确定所述发言者观看所述待分享的视频图像时的视线方向；

根据所述发言者观看所述待分享的视频图像时的视线方向，在所述待分享的视频图像中确定所述落点。

11.一种直播的视频处理装置，其特征在于，包括：

获取模块，用于获取直播中的待分享的视频图像，其中，所述待分享的视频图像包括讲解区域和非讲解区域，所述讲解区域包括所述待分享的视频图像中正在被讲解的内容，所述讲解区域是以下区域中的任意一种：所述待分享的视频图像中光标中心的区域，所述待分享的视频图像中发言者的视线的落点为中心的区域，与所述待分享的视频图像中发言者的讲话文本匹配的内容所在的区域；

所述获取模块，还用于获取针对所述待分享的视频图像的发言者的人像视频图像，其中，所述发言者包括使用麦克风的用户和所述直播的发起者至少之一；

设定模块，用于响应于针对所述人像视频图像的位置设定操作，确定所述人像视频图像相对于所述待分享的视频图像的位置，其中，所述位置用于使所述人像视频图像避让所述讲解区域，所述人像视频图像具有透明度，所述人像视频图像的尺寸小于或等于所述视频图像的尺寸；

合成模块，用于根据所述人像视频图像相对于所述待分享的视频图像的位置，在客户端本地将所述人像视频图像嵌入至与所述人像视频图像具有相同时间的所述待分享的视频图像，得到合成视频图像；

呈现模块，用于在所述客户端中呈现所述合成视频图像；

发送模块，用于发送所述合成视频图像。

12.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的直播的视频处理方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至10任一项所述的直播的视频处理方法。