CN110427110A

CN110427110A - 一种直播方法、装置以及直播服务器

Info

Publication number: CN110427110A
Application number: CN201910707394.7A
Authority: CN
Inventors: 王云; 杨泉宇; 彭浩浩; 余彬彬; 宁华龙
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-11-08
Anticipated expiration: 2039-08-01
Also published as: CN110427110B

Abstract

本申请公开了一种直播方法、装置以及直播服务器，属于直播技术领域。所述方法包括：在主播的直播过程中，深度摄像头采集主播的图像信号，根据该图像信号调整显示在直播界面中的虚拟角色的形态。由于深度摄像头采集的图像信号中每个像素点的坐标为对应位置点在以深度摄像头为原点建立的空间坐标系中的坐标，因此，本申请可以直接采集到主播的人体的各个位置点的三维坐标，无需通过机器学习的方式来获取人体各个位置点的三维坐标，而直接采集的位置点的三维坐标显然更能代表位置点的真实空间位置，因此，通过采集的主播的人体的各个位置点的三维坐标调整后的虚拟角色的形态更能准确表征主播的形态。

Description

一种直播方法、装置以及直播服务器

技术领域

本申请涉及直播技术领域，特别涉及一种直播方法、装置以及直播服务器。

背景技术

随着直播技术的发展，对于不愿意出镜的主播，主播端可以在直播服务器提供的多个虚拟角色中选择一个虚拟角色来替代该主播进行直播，以便于该主播展示自己的才华。

相关技术中，主播端选择虚拟角色后，在主播端直播的过程，主播端采集主播的人体平面图像。该人体平面图像包括人体各个位置点的二维坐标。主播端通过机器学习的方式基于该人体平面图像确定人体各个位置点的三维坐标。对于各个位置点中任一位置点，主播端根据该位置点的三维坐标，调整该虚拟角色相应位置点的坐标，以使直播界面上显示的虚拟角色的动作和该主播的动作同步。

由于机器学习是基于经验来确定人体各个位置点的三维坐标，导致确定的三维坐标可能与实际三维坐标不一致，从而导致直播界面上显示的虚拟角色不能准确呈现主播的动作。

发明内容

本申请实施例提供了一种直播方法，可以使主播在直播时直播界面上显示的虚拟角色能准确呈现主播的动作。所述技术方案如下：

第一方面，提供了一种直播方法，所述方法包括：

获取主播端的深度摄像头针对主播采集的图像信号；

其中，所述图像信号包括每个像素点的坐标，所述坐标用于指示像素点对应的位置点在三维坐标系中的坐标，所述三维坐标系是指以所述深度摄像头为原点建立的空间坐标系；

根据所述图像信号获取所述主播的多个骨骼点中每个骨骼点的坐标、以及所述主播的多个人脸关键点中每个人脸关键点的坐标；

根据所述主播的多个骨骼点中每个骨骼点的坐标、以及所述主播的多个人脸关键点中每个人脸关键点的坐标，调整显示在直播界面中的虚拟角色的形态。

可选的，所述虚拟角色的形态包括动作和表情；

所述根据所述主播的多个骨骼点中每个骨骼点的坐标、以及所述主播的多个人脸关键点中每个人脸关键点的坐标，调整显示在直播界面中虚拟角色的形态，包括：

根据所述主播的多个骨骼点中每个骨骼点的坐标，调整所述虚拟角色的动作；

根据所述主播的多个人脸关键点中每个人脸关键点的坐标，调整所述虚拟角色的表情。

可选的，所述根据所述主播的多个骨骼点中每个骨骼点的坐标，调整所述虚拟角色的动作，包括：

对于所述主播的多个骨骼点中任意相邻的两个骨骼点，根据所述主播的相邻的两个骨骼点中每个骨骼点的坐标，确定所述主播的相邻的两个骨骼点之间的相对姿态，所述相对姿态用于指示所述主播的相邻的两个骨骼点中一个骨骼点相对于另一个骨骼点在三维空间中的旋转角度；

根据所述主播的相邻的两个骨骼点之间的相对姿态，调整所述虚拟角色中与所述主播的相邻的两个骨骼点对应的两个骨骼点之间的相对位置。

可选的，所述根据所述主播的多个人脸关键点中每个人脸关键点的坐标，调整所述虚拟角色的表情，包括：

从所述主播的多个人脸关键点中每个人脸关键点的坐标中获取用于指示眼睛的人脸关键点的坐标；

根据所述用于指示眼睛的人脸关键点的坐标，确定所述主播的眼睛的睁开程度；

根据所述主播的眼睛的睁开程度，调整所述虚拟角色的眼睛的睁开程度。

从所述主播的多个人脸关键点中每个人脸关键点的坐标中获取用于指示嘴巴的人脸关键点的坐标；

根据所述用于指示嘴巴的人脸关键点的坐标，确定所述主播的嘴巴的张开程度；

根据所述主播的嘴巴的张开程度，调整所述虚拟角色的嘴巴的张开程度。

第二方面，本申请提供了一种直播装置，所述装置包括：

第一获取模块，用于获取主播端的深度摄像头针对主播采集的图像信号；

第二获取模块，用于根据所述图像信号获取所述主播的多个骨骼点中每个骨骼点的坐标、以及所述主播的多个人脸关键点中每个人脸关键点的坐标；

调整模块，用于根据所述主播的多个骨骼点中每个骨骼点的坐标、以及所述主播的多个人脸关键点中每个人脸关键点的坐标，调整显示在直播界面中的虚拟角色的形态。

可选的，所述虚拟角色的形态包括动作和表情；

所述调整模块包括：

动作调整子模块，用于根据所述主播的多个骨骼点中每个骨骼点的坐标，调整所述虚拟角色的动作；

表情调整子模块，用于根据所述主播的多个人脸关键点中每个人脸关键点的坐标，调整所述虚拟角色的表情。

可选的，所述动作调整子模块，具体用于：

可选的，所述表情调整子模块，具体用于：

第三方面，提供了一种主播端，所述主播端包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面提供的任一项方法的步骤。

第四方面，提供了一种直播服务器，所述直播服务器包括：

处理器；

用于存储处理器可执行指令的存储器；

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面任一所述的方法的步骤。

第六方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的任一项方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

在本申请实施例中，在主播的直播过程中，深度摄像头采集主播的图像信号，根据该图像信号调整显示在直播界面中的虚拟角色的形态。由于深度摄像头采集的图像信号中每个像素点的坐标为对应位置点在以深度摄像头为原点建立的空间坐标系中的坐标，因此，本申请可以直接采集到主播的人体的各个位置点的三维坐标，无需通过机器学习的方式来获取人体各个位置点的三维坐标，而直接采集的位置点的三维坐标显然更能代表位置点的真实空间位置，因此，通过采集的主播的人体的各个位置点的三维坐标调整后的虚拟角色的形态更能准确表征主播的形态。另外，本申请是根据采集的图像信号中主播的多个骨骼点中每个骨骼点的坐标、以及主播的多个人脸关键点中每个人脸关键点的坐标，调整显示在直播界面中的虚拟角色的形态，进一步保证调整后的虚拟角色的形态与主播的形态保持一致。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种主播端的直播界面示意图；

图2是本申请实施例提供的一种直播系统示意图；

图3是本申请实施例提供的一种直播方法流程图；

图4是本申请实施例提供的一种人体骨骼点分布示意图；

图5是本申请实施例提供的一种人脸关键点示意图；

图6是本申请实施例提供的一种用于指示眼睛的人脸关键点示意图；

图7是本申请实施例提供的一种用于指示嘴巴的人脸关键点示意图；

图8是本申请提供的一种直播装置结构示意图；

图9本申请实施例提供的一种主播端的结构示意图；

图10本申请实施例提供的一种直播服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的一种直播方法进行解释说明之前，先对本申请实施例的应用场景进行解释说明。随着直播技术的发展，对于不愿意出镜的主播，主播端可以在直播服务器提供的多个虚拟角色中选择一个虚拟角色来替代该主播进行直播，以便于该主播展示自己的才华。比如，直播服务器提供虚拟角色1至虚拟角色10的10个可选项，主播端在选定虚拟角色1代替主播来进行直播之后，观众端的直播界面便显示与主播直播时形态一致的虚拟角色1。

图1是本申请实施例提供的一种主播端的直播界面示意图。如图1所示，主播端的直播界面包括两个显示区域，左边的显示区域用于显示主播的真实画面，右边的显示区域用于显示虚拟角色的画面。如图1所示，当主播做出图1所示的舞蹈动作之后，右边的显示区域中的虚拟角色也显示同样的舞蹈动作，以实现该主播通过虚拟角色进行直播。

本申请实施例提供的直播方法就应用于通过虚拟角色进行直播的场景中。

图2是本申请实施例提供的一种直播系统示意图，如图2所示，该直播系统200包括主播端201、直播服务器202和多个观众端203。主播端201和直播服务器202之间通过无线或有线方式连接以进行通信，每个观众端203与直播服务器202之间也通过无线或有线方式连接以进行通信。

对于主播端201，当该主播端的主播进行直播时，可以选择直播服务器提供的多个虚拟角色中的一个来进行直播，当主播端201选定虚拟角色开始直播时，主播端201采集该主播的图像信号，主播端201或者直播服务器202根据该主播的图像信号调整显示在直播界面中的虚拟角色的形态，并将调整好的虚拟角色的形态发送至多个观众端203，任一观众端203呈现该虚拟角色调整后的形态，以使直播界面上显示的虚拟角色的形态与该主播的形态一致。

在本申请实施例中，主播端201以及每个观众端203可以为手机、台式计算机、笔记本电脑等设备，图2中仅仅是以手机举例进行说明，并不构成对本申请实施例的限定。

图3是本申请实施例提供的一种直播方法流程图，应用于图2所示的主播端或直播服务器，该方法包括如下步骤：

步骤301：获取主播端的深度摄像头针对主播采集的图像信号；其中，该图像信号包括每个像素点的坐标，该坐标用于指示像素点对应的位置点在三维坐标系中的坐标，该三维坐标系是指以深度摄像头为原点建立的空间坐标系。

对于直播中的主播，深度摄像头可以采集该主播的图像信号，相比于普通摄像头而言，深度摄像头采集的图像信号中每个像素点的坐标为三维坐标，该三维坐标是基于以深度摄像头为原点建立的空间坐标系而获得。该深度摄像头获得的像素点的三维坐标，可以用来很好的捕捉主播的直播动作。

比如，三维坐标系可以是以深度摄像头为原点，以深度摄像头所在位置处的水平方向为x轴方向，以深度摄像头所在位置处的垂直方向为y轴方向，以深度摄像头所在位置处垂直于前述x轴和y轴的方向为z轴方向。因此，在深度摄像头获取的图像信号中，每个像素点的坐标中的z值可以用于指示与该像素点对应的位置点距离深度摄像头的远近，也即是z值可以用于指示景深。

上述深度摄像头可以为带景深传感器的摄像头。比如，如Kinect(微软发布的一种体感摄像机)，Realsense(英特尔发布的一种追踪摄像机)等摄像头。这些深度摄像头可以实时跟踪人体全身骨骼点的坐标。

步骤302：根据该图像信号获取该主播的多个骨骼点中每个骨骼点的坐标、以及该主播的多个人脸关键点中每个人脸关键点的坐标。

主播在直播的过程中，当主播的形态发生变化时，主播的骨骼点以及人脸关键点通常会发生相应变化，因此，为了保证后续显示在直播界面中的虚拟角色的形态与该主播的形态一致，在获取到图像信号时，需要从图像信号的所有像素点中识别出该主播的多个骨骼点中每个骨骼点的坐标、以及该主播的多个人脸关键点中每个人脸关键点的坐标。

骨骼点是指在人体运动时位置发生变化的关键点。比如，关节点。图4是本申请实施例提供的一种人体骨骼点分布示意图。如图4所示，人体中有25个骨骼点。此时，根据图像信号获取的多个骨骼点的坐标即为图4中的25个骨骼点的坐标。当主播左右摇头时，骨骼点2、3的坐标随之发生变化。

人脸关键点是用来识别人脸五官。比如，图5是本申请提供的一种人脸关键点分布示意图，如图5所示，这多个人脸关键点中包括用于指示嘴巴、眼睛、鼻子、眉毛、脸型的关键点。目前，人脸关键点通常有106个。在主播进行直播中眨眼时，用于指示眼睛的人脸关键点坐标发生相应的变化，或者，在主播进行直播中张开嘴巴大笑时，用于指示嘴巴的人脸关键点坐标发生相应的变化。

步骤303：根据该主播的多个骨骼点中每个骨骼点的坐标、以及该主播的多个人脸关键点中每个人脸关键点的坐标，调整显示在直播界面中的虚拟角色的形态。

主播在直播的过程中，主播的形态通常包括动作和表情。因此，在一种可能的实现方式中，步骤303可以通过以下两个步骤来实现：

(1)根据主播的多个骨骼点中每个骨骼点的坐标，调整该虚拟角色的动作，以此来实现主播动作和虚拟角色动作一致。

上述步骤(1)的实现方式可以为：对于主播的多个骨骼点中任意相邻的两个骨骼点，根据主播的相邻两个骨骼点中每个骨骼点的坐标，确定主播的相邻两个骨骼点之间的相对姿态，该相对姿态用于指示主播的相邻的两个骨骼点中一个骨骼点相对于另一个骨骼点在三维空间中的旋转角度。根据确定的主播的相邻两个骨骼点之间的相对姿态，调整该虚拟角色中与该主播的相邻两个骨骼点对应的两个骨骼点之间的相对位置。

以相邻两个骨骼点A和B来进一步解释说明上述调整虚拟角色的动作的过程。假设骨骼点A的坐标为(x1，y1，z1)，骨骼点B的坐标为(x2，y2，z2)，则骨骼点A相对于骨骼点B之间的向量可以表示为(x1-x2，y1-y2，z1-z2)。将该向量与三个坐标轴X/Y/Z之间的夹角分别标记为α、β、γ，则α、β、γ这三个角可以通过向量(x1-x2，y1-y2，z1-z2)得到。其中，α、β、γ就是骨骼点A相对于骨骼点B在三维空间中的旋转角度，也即是，骨骼点A在以骨骼点B为原点的三维坐标系中相对于三个坐标轴的旋转角度。

在得到骨骼点A相对于骨骼点B的相对姿态后，在当前显示界面中，以骨骼点B为原点建立三维坐标系，按照骨骼点A相对于骨骼点B的相对姿态，确定虚拟角色中骨骼点A在该三维坐标系中的位置，相当于对虚拟角色中骨骼点A和骨骼点B之间的相对位置进行了调整。

另外，在图4所示的人体骨骼分布中，各个骨骼点呈现树型分布。因此，在主播直播的过程中，在获取到这25个骨骼点的坐标后，按照从根骨骼点到叶骨骼点的顺序依次调整相邻两个骨骼点之间的相对位置。比如，先调整骨骼点4与骨骼点20之间的相对位置，再调整骨骼点5与骨骼点4之间的相对位置，再调整骨骼点6与骨骼点5之间的相对位置，再调整骨骼点7与骨骼点6之间的相对位置、以及骨骼点22与骨骼点6之间的相对位置，最后调整骨骼点21与骨骼点7之间的相对位置。

在本申请实施例中，可以先基于直播服务器中的虚拟角色，确定该虚拟角色多个骨骼点与主播的多个骨骼点的对应关系。比如，分别将主播的多个骨骼点和虚拟角色的多个骨骼点按照图4所示的骨骼点分布示意图进行命名，以使用于指示同一位置的具有相同的名称，比如，主播的头顶位置的骨骼点和虚拟角色的头顶位置的骨骼点均命名为骨骼点3，以便于后续快速调整虚拟角色的形态。

因此，在步骤303中，获取的主播的多个骨骼点中每个骨骼点的坐标、可以与虚拟角色的坐标对应起来，方便根据主播端骨骼点坐标去调整虚拟角色的骨骼点坐标。

另外，如果获取某个的主播的骨骼点在虚拟角色中没有对应的骨骼点，则无需对该骨骼点进行处理。比如，获取到主播的手指上的骨骼点的坐标后，如果虚拟角色中没有预先配置手指上的骨骼点，此时则无需对该主播的手指上的骨骼点进行处理，也即是说在主播直播的过程中，如果该主播的手指发生了弯曲，该虚拟角色的手指发生弯曲。

(2)根据主播的多个人脸关键点中每个人脸关键点的坐标，调整所选虚拟角色的表情，以此来实现主播表情和虚拟角色表情一致。

在主播直播的过程中，主播的表情发生变化时，主播的眼睛和/或嘴巴的形状通常会随之发生变化，因此，调整虚拟角色的表情可以通过调整主播的的眼睛和/或嘴巴的形状来实现。

在一种可能的实现方式中，调整主播的的眼睛的形状的实现方式可以为：从主播的多个人脸关键点中每个人脸关键点的坐标中获取用于指示眼睛的人脸关键点的坐标，根据用于指示眼睛的人脸关键点的坐标，确定主播的眼睛的睁开程度，根据主播的眼睛的睁开程度，调整虚拟角色的眼睛的睁开程度。

如图6所示，获取四个用来指示眼睛的人脸关键点的坐标，这四个人脸关键点分别标记为A、B、C、D，其中人脸关键点A位于上眼眶中间，人脸关键点D点位于下眼眶中间，人脸关键点B、人脸关键点C点分别位于眼睛两侧眼角位置。可以根据人脸关键点A、人脸关键点B、人脸关键点D的坐标可以确定∠ABD的角度大小。根据预先设置的角度和眼睛的睁开程度之间的对应关系，确定与该∠ABD的角度大小对应眼睛的睁开程度，根据确定的眼睛的睁开程度即可调整虚拟角色的眼睛的睁开程度。

比如，可以预先配置角度小于15度时对应的眼睛的睁开程度为0，角度在15度到30度之间对应的眼睛的睁开程度为20％，角度在30度到40度之间对应的眼睛的睁开程度为60％，角度大于60度对应的眼睛的睁开程度为100％。假设确定出的主播的眼睛的睁开程度为60％，则将虚拟角色的眼睛睁开程度按照60％进行调整。

在一种可能的实现方式中，调整主播的的嘴巴的形状的实现方式可以为：从主播的多个人脸关键点中每个人脸关键点的坐标中获取用于指示嘴巴的人脸关键点的坐标，根据用于指示嘴巴的人脸关键点的坐标，确定主播的嘴巴的张开程度，根据主播的嘴巴的的张开程度，调整虚拟角色的嘴巴的张开程度。

比如，如图7所示，获取四个用来指示嘴巴的人脸关键点的坐标E、F、G、H，其中人脸关键点E位于上嘴唇中间，人脸关键点H位于下嘴唇中间，人脸关键点F、人脸关键点G分别位于两侧嘴角位置。根据人脸关键点E、人脸关键点F、人脸关键点H的坐标可以确定∠EFH的角度大小。根据预先设置的角度和嘴巴的张开程度之间的对应关系，确定与该∠EFH的角度大小对应嘴巴的张开程度，根据确定的嘴巴的张开程度即可调整虚拟角色的嘴巴的张开程度。

其中，预先设置的角度和嘴巴的张开程度之间的对应关系可以参考上述预先设置的角度和眼睛的睁开程度之间的对应关系，在此不再一一说明。

另外，在调整虚拟角色的表情时，除了可以调整该虚拟角色的眼睛和嘴巴，还可以根据用于指示主播的其他五官的人脸关键点的坐标，来调整虚拟角色中其他五官的形态，进一步使得调整后的虚拟角色的表情与主播的表情一致。在此不再一一展开说明。

此外，在直播的过程中除通过上述步骤301至步骤303调整显示在直播界面中的虚拟角色的形态外，虚拟角色的头发、衣服等柔性物体，还可以通过其他独立的物理引擎来调整其漂浮和摆动的姿态，从而使得直播过程中该虚拟角色的头发、衣服等柔性物体的漂浮和摆动的姿态发生变化。在此不再赘述。

图8是本申请实施例提供的一种直播装置的结构示意图，该直播装置可以由软件、硬件或者两者的结合实现。该直播装置可以包括：

第一获取模块801，用于获取主播端的深度摄像头针对主播采集的图像信号；

其中，图像信号包括每个像素点的坐标，该坐标用于指示像素点对应的位置点在三维坐标系中的坐标，该三维坐标系是指以深度摄像头为原点建立的空间坐标系；

第二获取模块802，用于根据图像信号获取主播的多个骨骼点中每个骨骼点的坐标、以及主播的多个人脸关键点中每个人脸关键点的坐标；

调整模块803，用于根据主播的多个骨骼点中每个骨骼点的坐标、以及主播的多个人脸关键点中每个人脸关键点的坐标，调整显示在直播界面中的虚拟角色的形态。

可选的，虚拟角色的形态包括动作和表情；

调整模块803包括：

动作调整子模块，用于根据主播的多个骨骼点中每个骨骼点的坐标，调整虚拟角色的动作；

表情调整子模块，用于根据主播的多个人脸关键点中每个人脸关键点的坐标，调整虚拟角色的表情。

可选的，动作调整子模块，具体用于：

对于主播的多个骨骼点中任意相邻的两个骨骼点，根据该主播的相邻的两个骨骼点中每个骨骼点的坐标，确定该主播的相邻的两个骨骼点之间的相对姿态，该相对姿态用于指示该主播的相邻的两个骨骼点中一个骨骼点相对于另一个骨骼点在三维空间中的旋转角度；

根据该主播的相邻的两个骨骼点之间的相对姿态，调整虚拟角色中与该主播的相邻的两个骨骼点对应的两个骨骼点之间的相对位置。

可选的，表情调整子模块，具体用于：

从主播的多个人脸关键点中每个人脸关键点的坐标中获取用于指示眼睛的人脸关键点的坐标；

根据用于指示眼睛的人脸关键点的坐标，确定该主播的眼睛的睁开程度；

根据该主播的眼睛的睁开程度，调整虚拟角色的眼睛的睁开程度。

可选的，表情调整子模块，具体用于：

从主播的多个人脸关键点中每个人脸关键点的坐标中获取用于指示嘴巴的人脸关键点的坐标；

根据用于指示嘴巴的人脸关键点的坐标，确定该主播的嘴巴的张开程度；

根据该主播的嘴巴的张开程度，调整该虚拟角色的嘴巴的张开程度。

需要说明的是：上述实施例提供的直播装置在直播时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的直播装置与直播方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种主播端900的结构框图。该主播端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio La10er III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio La10er IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。主播端900还可能被称为用户设备、便携式、膝上型、台式等其他名称。

通常，主播端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Arra10，现场可编程门阵列)、PLA(Programmable Logic Arra10，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的直播方法。

在一些实施例中，主播端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequenc10，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它主播端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelit10，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置主播端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在主播端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在主播端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Cr10stal Displa10，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在主播端的前面板，后置摄像头设置在主播端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Realit10，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在主播端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位主播端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning S10stem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为主播端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，主播端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以主播端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测主播端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对主播端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在主播端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在主播端900的侧边框时，可以检测用户对主播端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置主播端900的正面、背面或侧面。当主播端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在主播端900的前面板。接近传感器916用于采集用户与主播端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与主播端900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与主播端900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对主播端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由主播端的处理器执行时，使得主播端能够执行上实施例提供的直播方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在主播端上运行时，使得主播端执行上述实施例提供的直播方法。

图10是根据一示例性实施例示出的一种直播服务器结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲：

服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的如下所述的直播方法的指令。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述实施例提供的直播方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在服务器上运行时，使得服务器执行上述实施例提供的直播方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种直播方法，其特征在于，所述方法包括：

获取主播端的深度摄像头针对主播采集的图像信号；

2.如权利要求1所述的方法，其特征在于，所述虚拟角色的形态包括动作和表情；

3.如权利要求2所述的方法，其特征在于，所述根据所述主播的多个骨骼点中每个骨骼点的坐标，调整所述虚拟角色的动作，包括：

4.如权利要求2所述的方法，其特征在于，所述根据所述主播的多个人脸关键点中每个人脸关键点的坐标，调整所述虚拟角色的表情，包括：

5.如权利要求2所述的方法，其特征在于，所述根据所述主播的多个人脸关键点中每个人脸关键点的坐标，调整所述虚拟角色的表情，包括：

6.一种直播装置，其特征在于，所述装置包括：

7.如权利要求6所述，其特征在于，所述虚拟角色的形态包括动作和表情；

所述调整模块包括：

8.一种主播端，其特征在于，所述主播端包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1至5中的任一项权利要求所述的方法的步骤。

9.一种直播服务器，其特征在于，所述直播服务器包括：

处理器；

用于存储处理器可执行指令的存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述权利要求1至5中的任一项权利要求所述的方法的步骤。