CN110312144B

CN110312144B - 进行直播的方法、装置、终端和存储介质

Info

Publication number: CN110312144B
Application number: CN201910716907.0A
Authority: CN
Inventors: 王云; 杨泉宇; 彭浩浩; 余彬彬; 宁华龙
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-05-24
Anticipated expiration: 2039-08-05
Also published as: CN110312144A

Abstract

本公开是关于一种进行直播的方法、装置、终端和存储介质，属于互联网技术领域。所述方法包括：通过图像拍摄部件采集第一连麦人物的视频帧；识别第一连麦人物的视频帧中的骨骼特征点，确定第一连麦人物的骨骼特征点的三维位置信息；接收服务器发送的第二连麦人物的骨骼特征点的三维位置信息；基于第一连麦人物的骨骼特征点的三维位置信息，确定第一连麦人物对应的第一人物动画视频帧，基于第二连麦人物的骨骼特征点的三维位置信息，确定第二连麦人物对应的第二人物动画视频帧；将第一人物动画视频帧和第二人物动画视频帧进行合成，得到本地连麦直播的直播视频帧，向服务器发送直播视频帧。采用本公开，可以使得连麦互动方式更加灵活。

Description

进行直播的方法、装置、终端和存储介质

技术领域

本公开是关于互联网技术领域，尤其是关于一种进行直播的方法、装置、终端和存储介质。

背景技术

直播平台为了增加用户流量，会不断地提出新的直播活动，以吸引观众用户的目光。例如，在单独一个主播进行直播的基础上，提出主播连麦的直播活动。在主播连麦的过程中，第一主播可以在直播平台中开播的主播中选择第二主播，邀请第二主播进行连麦，如果第二主播接受连麦邀请，则第一主播和第二主播可以通过互动的方式共同进行直播。在互动的过程中，第一主播可以和第二主播进行才艺比拼，如比赛唱歌等。

在实现本公开的过程中，发明人发现至少存在以下问题：相关技术中连麦互动方式的灵活性较差。

发明内容

为了克服相关技术中存在的问题，本公开提供了以下技术方案：

根据本公开实施例的第一方面，提供一种进行直播的方法，所述方法包括：

通过图像拍摄部件采集第一连麦人物的视频帧；

识别所述第一连麦人物的视频帧中的骨骼特征点，确定所述第一连麦人物的骨骼特征点的三维位置信息；

接收服务器发送的第二连麦人物的骨骼特征点的三维位置信息；

基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧；

将所述第一人物动画视频帧和所述第二人物动画视频帧进行合成，得到本地连麦直播的直播视频帧，向所述服务器发送所述直播视频帧。

可选地，所述图像拍摄部件包括深度图像拍摄部件，所述通过图像拍摄部件采集第一连麦人物的视频帧，包括：

通过所述深度图像拍摄部件采集第一连麦人物的三维视频帧；

所述识别所述第一连麦人物的视频帧中的骨骼特征点，确定所述第一连麦人物的骨骼特征点的三维位置信息，包括：

识别所述第一连麦人物的三维视频帧中的骨骼特征点；

在所述第一连麦人物的三维视频帧包括的各像素点的三维位置信息中，确定所述第一连麦人物的骨骼特征点的三维位置信息。

可选地，所述基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，包括：

基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物的至少一组骨骼特征点对应的位姿信息，其中，每组骨骼特征点包括两个预设类型的骨骼特征点；

基于所述第一连麦人物的至少一组骨骼特征点对应的位姿信息，确定所述第一连麦人物对应的第一人物动画视频帧；

所述基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧，包括：

基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物的至少一组骨骼特征点对应的位姿信息；

基于所述第二连麦人物的至少一组骨骼特征点对应的位姿信息，确定所述第二连麦人物对应的第二人物动画视频帧。

可选地，所述基于所述第一连麦人物的至少一组骨骼特征点对应的位姿信息，确定所述第一连麦人物对应的第一人物动画视频帧，包括：

获取第一初始人物动画模型，其中，所述第一初始人物动画模型包括至少一个模型组件；

基于所述第一连麦人物的至少一组骨骼特征点对应的位姿信息、以及预先存储的模型组件和多组骨骼特征点之间的对应关系，对所述第一初始人物动画模型中各模型组件的初始位姿信息进行调整，得到所述第一连麦人物对应的第一人物动画模型；

基于所述第一人物动画模型，确定所述第一连麦人物对应的第一人物动画视频帧。

可选地，所述基于所述第二连麦人物的至少一组骨骼特征点对应的位姿信息，确定所述第二连麦人物对应的第二人物动画视频帧，包括：

获取第二初始人物动画模型，其中，所述第二初始人物动画模型包括至少一个模型组件；

基于所述第二连麦人物的至少一组骨骼特征点对应的位姿信息、以及预先存储的模型组件和多组骨骼特征点之间的对应关系，对所述第二初始人物动画模型中各模型组件的初始位姿信息进行调整，得到所述第二连麦人物对应的第二人物动画模型；

基于所述第二人物动画模型，确定所述第二连麦人物对应的第二人物动画视频帧。

可选地，在基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧之前，所述方法还包括：

确定所述第一连麦人物的视频帧中上眼皮位置和下眼皮位置之间的距离、以及上唇位置和下唇位置之间的距离，作为所述第一连麦人物的表情信息；

接收所述服务器发送的所述第二连麦人物的表情信息；

所述基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧，包括：

基于所述第一连麦人物的骨骼特征点的三维位置信息和表情信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息和表情信息，确定所述第二连麦人物对应的第二人物动画视频帧。

根据本公开实施例的第二方面，提供一种进行直播的装置，所述装置包括：

采集模块，用于通过图像拍摄部件采集第一连麦人物的视频帧；

识别模块，用于识别所述第一连麦人物的视频帧中的骨骼特征点，确定所述第一连麦人物的骨骼特征点的三维位置信息；

接收模块，用于接收服务器发送的第二连麦人物的骨骼特征点的三维位置信息；

确定模块，用于基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧；

发送模块，用于将所述第一人物动画视频帧和所述第二人物动画视频帧进行合成，得到本地连麦直播的直播视频帧，向所述服务器发送所述直播视频帧。

可选地，所述图像拍摄部件包括深度图像拍摄部件；

所述采集模块，用于通过所述深度图像拍摄部件采集第一连麦人物的三维视频帧；

所述识别模块，用于识别所述第一连麦人物的三维视频帧中的骨骼特征点；

可选地，所述确定模块，用于：

可选地，所述确定模块，还用于确定所述第一连麦人物的视频帧中上眼皮位置和下眼皮位置之间的距离、以及上唇位置和下唇位置之间的距离，作为所述第一连麦人物的表情信息；

所述接收模块，还用于接收所述服务器发送的所述第二连麦人物的表情信息；

所述确定模块，用于基于所述第一连麦人物的骨骼特征点的三维位置信息和表情信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息和表情信息，确定所述第二连麦人物对应的第二人物动画视频帧。

根据本公开实施例的第三方面，提供一种终端，所述终端包括处理器、通信接口、存储器和通信总线，其中：

所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，以实现上述进行直播的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述进行直播的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过本公开实施例提供的方法，可以采集第一连麦人物的视频帧，识别第一连麦人物的视频帧中的骨骼特征点，确定第一连麦人物的骨骼特征点的三维位置信息。基于连麦人物的骨骼特征点的三维位置信息，确定连麦人物的舞姿，接着可以对应调整人物动画视频帧中的人物动画模型的舞姿，将第一连麦人物对应的第一人物动画模型和第二连麦人物对应的第二连麦人物的第二人物动画模型合成到同一斗舞舞台场景中。在本公开实施例中，可以让不同人物动画模型分别模仿两个连麦人物进行跳舞，实现通过人物动画模型进行连麦斗舞的效果。连麦互动方式更加的灵活。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。在附图中：

图1是根据一示例性实施例示出的一种进行直播的系统的结构示意图；

图2是根据一示例性实施例示出的一种进行直播的方法的流程示意图；

图3是根据一示例性实施例示出的一种骨骼特征点的示意图；

图4是根据一示例性实施例示出的一种人物动画模型的示意图；

图5是根据一示例性实施例示出的一种直播视频帧的示意图；

图6是根据一示例性实施例示出的一种进行直播的方法的流程示意图；

图7是根据一示例性实施例示出的一种进行直播的结构示意图；

图8是根据一示例性实施例示出的一种终端的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供了一种进行直播的方法，该方法可以由终端实现，并可以由其他终端和服务器配合实现。其中，终端可以是手机、平板电脑、台式计算机、笔记本计算机等。如图1所示，是本公开实施例提供的一种进行直播的系统的结构示意图。在该系统中，可以设置有第一终端、第二终端和服务器。

终端中可以安装有系统程序和应用程序。用户在使用终端的过程中，基于自己的不同需求，会使用各种各样的应用程序。终端中可以安装有具备直播功能的应用程序。主播用户可以通过终端，采集直播视频，让进入主播用户直播间的观众用户能够收看直播视频。观众用户可以通过终端，接收并播放直播视频。主播用户在进行直播的过程中，可以连麦直播。例如，主播用户A可以向主播用户B发起连麦邀请，如果主播用户B接受连麦邀请，则主播用户A和主播用户B可以进行连麦直播，进入主播用户A或者主播用户B的直播间的所有观众用户能同时收看到主播用户A和主播用户B的直播视频，主播用户A和主播用户B互相也可以进行互动。

本公开一示例性实施例提供了一种进行直播的方法，如图2所示，该方法的处理流程可以包括如下的步骤：

步骤S210，通过图像拍摄部件采集第一连麦人物的视频帧。

在实施中，主播用户在进行直播的过程中，可以连麦直播。在连麦直播的过程中，主播用户A或者主播用户B可以向对方发起斗舞邀请，服务器可以指示第一终端和第二终端开启斗舞模式。先发起斗舞邀请的终端可以作为第一终端，另外的终端可以作为第二终端。当服务器指示第一终端和第二终端开启斗舞模式时，第一终端可以检测到斗舞指令。第一终端中设置有图像拍摄部件，也可以称为摄像头。当第一终端检测到斗舞指令时，第一终端可以通过图像拍摄部件采集先发起斗舞邀请的主播用户的视频，采集到的视频中可以包括多个视频帧，在本公开实施例中可以对每帧按照相同的方式分别进行处理。在采集连麦人物的视频的过程中，主播用户可以在图像拍摄部件的拍摄区域中进行跳舞。

当服务器指示第一终端和第二终端开启斗舞模式时，第二终端会自动停止继续上传被邀请斗舞的主播用户的视频帧。

可选地，第一终端可以加载预先存储的斗舞舞台场景，相应地，第二终端也可以加载预先存储的斗舞舞台场景。

步骤S220，识别第一连麦人物的视频帧中的骨骼特征点，确定第一连麦人物的骨骼特征点的三维位置信息。

在实施中，在第一终端采集到第一连麦人物的视频帧之后，可以识别第一连麦人物的视频帧中的骨骼特征点。如图3所示，本公开实施例中的骨骼特征点可以是25个骨骼特征点，当然可以根据实际情况增加、减少、替换25个骨骼特征点，对此本公开实施例不作限定。可以通过骨骼蒙皮动画算法，将连麦人物的舞姿信息套用到连麦人物对应的人物动画模型上。

在确定第一连麦人物的骨骼特征点之后，可以确定第一连麦人物的骨骼特征点的三维位置信息。该三维位置信息可以是视频帧中的三维位置信息，也可以是骨骼特征点对应的实物点的三维位置信息。如果是骨骼特征点对应的实物点的三维位置信息，则该三维位置信息可以是以图像拍摄部件镜头的中心点为原点、以光轴所在的直线为x轴、以垂直于光轴且和光轴处于同一水平面的直线为y轴、以垂直于x轴和y轴围成的平面的直线为y轴建立的图像拍摄部件坐标系中的位置信息。

可选地，图像拍摄部件可以包括深度图像拍摄部件，步骤S210可以包括：通过深度图像拍摄部件采集第一连麦人物的三维视频帧；步骤S220可以包括：识别第一连麦人物的三维视频帧中的骨骼特征点；基于第一连麦人物的三维视频帧，确定第一连麦人物的骨骼特征点的三维位置信息。

在实施中，第一终端中设置的图像拍摄部件可以是深度图像拍摄部件，深度图像拍摄部件不仅能够采集二维的图像信息，还能采集图像信息中各点的深度信息，二维的图像信息和深度信息可以作为三维视频帧。第一终端可以在第一连麦人物的三维视频帧中，识别第一连麦人物的骨骼特征点。在第一连麦人物的三维视频帧中存储有各点的三维位置信息，因此可以在各点的三维位置信息中，获取第一连麦人物的骨骼特征点的三维位置信息。

除了上述方式之外，还可以在第一终端中设置两个二维图像拍摄部件，可以同时通过两个二维图像拍摄部件分别采集第一连麦人物的二维视频帧，随后可以基于第一连麦人物的两个二维视频帧，确定第一连麦人物的三维视频帧，最后可以识别第一连麦人物的三维视频帧中的骨骼特征点，基于第一连麦人物的三维视频帧，确定第一连麦人物的骨骼特征点的三维位置信息。

步骤S230，接收服务器发送的第二连麦人物的骨骼特征点的三维位置信息。

在实施中，第二终端可以采用上述方式获取第二连麦人物的骨骼特征点的三维位置信息，第二终端可以通过图像拍摄部件采集第二连麦人物的视频帧，识别第二连麦人物的视频帧中的骨骼特征点，确定第二连麦人物的骨骼特征点的三维位置信息。接着，第二终端可以将第二连麦人物的骨骼特征点的三维位置信息上传至服务器，服务器将第二连麦人物的骨骼特征点的三维位置信息下发到第一终端中。第一终端可以接收服务器发送的第二连麦人物的骨骼特征点的三维位置信息。

步骤S240，基于第一连麦人物的骨骼特征点的三维位置信息，确定第一连麦人物对应的第一人物动画视频帧，基于第二连麦人物的骨骼特征点的三维位置信息，确定第二连麦人物对应的第二人物动画视频帧。

在实施中，第一终端可以基于第一连麦人物的骨骼特征点的三维位置信息，确定第一连麦人物当前跳舞的舞姿信息，基于第一连麦人物的舞姿信息，确定第一连麦人物对应的第一人物动画视频帧。人物动画视频帧中可以包括人物动画模型，人物动画模型也可以摆出不同的姿势，人物动画模型摆出的姿势可以和第一连麦人物当前跳舞的舞姿信息相一致。第一终端在接收到第二连麦人物的骨骼特征点的三维位置信息之后，还可以基于第二连麦人物的骨骼特征点的三维位置信息，确定第二连麦人物对应的第二人物动画视频帧。

可选地，步骤S240可以包括：基于第一连麦人物的骨骼特征点的三维位置信息，确定第一连麦人物的至少一组骨骼特征点对应的位姿信息，其中，每组骨骼特征点包括两个预设类型的骨骼特征点；基于第一连麦人物的至少一组骨骼特征点对应的位姿信息，确定第一连麦人物对应的第一人物动画视频帧。基于第二连麦人物的骨骼特征点的三维位置信息，确定第二连麦人物的至少一组骨骼特征点对应的位姿信息；基于第二连麦人物的至少一组骨骼特征点对应的位姿信息，确定第二连麦人物对应的第二人物动画视频帧。

在实施中，每个连麦人物都可以对应有多个类型的骨骼特征点，可以对多个类型的骨骼特征点进行分组，例如，可以将人体上相邻的两个类型的骨骼特征点分为一组。这样可以得到多组骨骼特征点，每组骨骼特征点可以连接成一段骨骼，如人体的左手臂。第一终端可以确定每个骨骼特征点的三维位置信息，因此可以确定每组骨骼特征点包括的两个类型的骨骼特征点分别对应的三维位置信息，基于每组骨骼特征点对应的三维位置信息，可以确定第一连麦人物的每组骨骼特征点对应的位姿信息。其中，位姿信息可以是在预设坐标系中，每组骨骼特征点连接成的一段骨骼的位置和相对于初始角度的旋转角度。在确定第一连麦人物的每组骨骼特征点对应的位姿信息之后，可以确定第一连麦人物的跳舞姿势，即获取第一连麦人物的舞姿信息，进而可以基于第一连麦人物的舞姿信息，确定第一连麦人物对应的第一人物动画视频帧。第一人物动画视频帧中可以包括第一人物动画模型，该第一人物动画模型可以是主播用户在直播平台中提供的多个人物动画模型中选取的人物动画模型，该第一人物动画模型可以是“二次元”文化的人物动画模型。

第一终端还可以基于接收到的第二连麦人物的骨骼特征点的三维位置信息，确定第二连麦人物的至少一组骨骼特征点对应的位姿信息，基于第二连麦人物的至少一组骨骼特征点对应的位姿信息，确定第二连麦人物对应的第二人物动画视频帧。第二人物动画视频帧中可以包括第二人物动画模型，该第二人物动画模型可以是主播用户在直播平台中提供的多个人物动画模型中选取的人物动画模型，该第二人物动画模型可以是“二次元”文化的人物动画模型。

可选地，基于第一连麦人物的至少一组骨骼特征点对应的位姿信息，确定第一连麦人物对应的第一人物动画视频帧的步骤可以包括：获取第一初始人物动画模型，其中，第一初始人物动画模型包括至少一个模型组件；基于第一连麦人物的至少一组骨骼特征点对应的位姿信息、以及预先存储的模型组件和多组骨骼特征点之间的对应关系，对第一初始人物动画模型中各模型组件的初始位姿信息进行调整，得到第一连麦人物对应的第一人物动画模型；基于第一人物动画模型，确定第一连麦人物对应的第一人物动画视频帧。

相应地，基于第二连麦人物的至少一组骨骼特征点对应的位姿信息，确定第二连麦人物对应的第二人物动画视频帧的步骤可以包括：获取第二初始人物动画模型，其中，第二初始人物动画模型包括至少一个模型组件；基于第二连麦人物的至少一组骨骼特征点对应的位姿信息、以及预先存储的模型组件和多组骨骼特征点之间的对应关系，对第二初始人物动画模型中各模型组件的初始位姿信息进行调整，得到第二连麦人物对应的第二人物动画模型；基于第二人物动画模型，确定第二连麦人物对应的第二人物动画视频帧。

在实施中，在第一终端中可以预先存储多个初始人物动画模型，主播用户可以在多个初始人物动画模型中选择需要使用的第一初始人物动画模型。该初始人物动画模型中可以包括多个模型组件，模型组件可以对应动画人物的四肢、身躯、头部、颈部等部分。模型组件的初始位姿信息可以是动画人物静止站立时对应的位姿信息，后续可以通过对初始位姿信息的调整，到达对人物动画模型的姿势进行调整的目的。例如，如图4所示，可以将初始动画人物垂下的右手臂调整为斜着向右前方伸直，摆出和第一连麦人物相似的姿势。

在第一终端中，存储有模型组件和多组骨骼特征点之间的对应关系，在确定每组骨骼特征点对应的位姿信息之后，可以根据上述对应关系，将模型组件的初始位姿信息调整为和对应的一组骨骼特征点的位姿信息一致，这样就可以实现对人物动画模型的姿势进行调整的目的。

由于可以通过图像采集装置采集第一连麦人物的视频，该视频包括多个视频帧，每个视频帧对应有第一连麦人物的一个舞姿信息，因此可以根据每个视频帧，确定第一连麦人物对应的一个人物动画模型。接着，可以对下一个视频帧进行处理，可以将下一个视频帧之前的一个视频帧对应的人物动画模型，作为初始人物动画模型，对初始人物动画模型进行更新，即对初始人物动画模型中各模型组件的初始位姿信息进行调整。对于第一连麦人物的每个视频帧，可以将对应的人物动画模型叠加在斗舞舞台场景中。第一终端还可以基于相同的方式，确定第二连麦人物的人物动画模型，进而第一终端可以将第一连麦人物的人物动画模型、第二连麦人物的人物动画模型同时叠加在同一斗舞舞台场景中，这样就可以形成第一连麦人物和第二连麦人物对应的人物动画视频帧。

可选地，在基于第一连麦人物的骨骼特征点的三维位置信息，确定第一连麦人物对应的第一人物动画视频帧，基于第二连麦人物的骨骼特征点的三维位置信息，确定第二连麦人物对应的第二人物动画视频帧之前，本公开实施例提供的方法还可以包括：确定第一连麦人物的视频帧中上眼皮位置和下眼皮位置之间的距离、以及上唇位置和下唇位置之间的距离，作为第一连麦人物的表情信息；接收服务器发送的第二连麦人物的表情信息；基于第一连麦人物的骨骼特征点的三维位置信息，确定第一连麦人物对应的第一人物动画视频帧，基于第二连麦人物的骨骼特征点的三维位置信息，确定第二连麦人物对应的第二人物动画视频帧的步骤可以包括：基于第一连麦人物的骨骼特征点的三维位置信息和表情信息，确定第一连麦人物对应的第一人物动画视频帧，基于第二连麦人物的骨骼特征点的三维位置信息和表情信息，确定第二连麦人物对应的第二人物动画视频帧。

在实施中，除了可以让人物动画模型模仿连麦人物的舞姿之外，还可以让人物动画模型模仿连麦人物的表情。第一终端可以识别第一连麦人物的视频帧中的人脸特征点，该人脸特征点可以是106个人脸特征点。在人脸特征点中，存在属于上眼皮、下眼皮、上唇、下唇的特征点，可以确定这些属于上眼皮、下眼皮、上唇、下唇的特征点。基于属于上眼皮、下眼皮、上唇、下唇的特征点，确定第一连麦人物的视频帧中上眼皮位置、下眼皮位置、上唇位置和下唇位置。接着可以基于第一连麦人物的视频帧中上眼皮位置、下眼皮位置、上唇位置和下唇位置，确定上眼皮位置和下眼皮位置之间的距离、以及上唇位置和下唇位置之间的距离。上眼皮位置和下眼皮位置之间的距离可以反映第一连麦人物的眼睛是张开、闭合或者眨眼等状态，上唇位置和下唇位置之间的距离则可以反映第一连麦人物的嘴巴是张开、闭合、抿嘴等状态，这些状态可以构成第一连麦人物的表情信息。可以基于权重、上眼皮位置和下眼皮位置之间的距离、上唇位置和下唇位置之间的距离，确定第一连麦人物对应的人物动画模型的表情。

第二终端可以基于相同的方式，确定第二连麦人物的视频帧中上眼皮位置、下眼皮位置、上唇位置和下唇位置，将这些位置上传至服务器，服务器将这些位置下发至第一终端，第一终端可以确定第二连麦人物的表情信息。第一终端接着可以基于第一连麦人物的骨骼特征点的三维位置信息和表情信息，确定第一连麦人物对应的第一人物动画视频帧，基于第二连麦人物的骨骼特征点的三维位置信息和表情信息，确定第二连麦人物对应的第二人物动画视频帧。

除了可以给人物动画模型添加表情信息之外，还可以通过物理引擎，为人物动画模型添加人物头发、服装等柔性物体的运动信息，以增加柔性物体的飘动动画效果。飘动动画效果具有一定的随机性，是第一终端随机加效果给人物动画模型的。第二终端也可以基于相同的方式，随机加飘动动画效果给人物动画模型。这样第一终端和第二终端加的飘动动画效果可能会不一致，第一终端本地看到的效果和第二终端本地看到的效果有所差异，但是不影响整体效果。因为最终，第一终端合成的直播视频帧会上传到服务器，服务器会将第一终端上传的直播视频下发到进入第一连麦人物的直播间或者进入第二连麦人物的直播间的观众用户的终端，因此所有观众收看到的直播视频都是第一终端上传的，并且直播视频中柔性物体的飘动动画效果是第一终端增加的，进而所有观众收看到的直播视频都是一致的，并无差异。

步骤S250，将第一人物动画视频帧和第二人物动画视频帧进行合成，得到本地连麦直播的直播视频帧，向服务器发送直播视频帧。

在实施中，第一终端可以将第一连麦人物的人物动画模型、第二连麦人物的人物动画模型同时叠加在同一斗舞舞台场景中，这样就可以形成第一连麦人物和第二连麦人物对应的人物动画视频帧，合成效果可以参见图5，可以将第一连麦人物和第二连麦人物对应的人物动画视频帧确定为本地连麦直播的直播视频帧，进而可以向服务器发送直播视频帧，以使服务器将直播视频帧发送至各个观众用户的终端。需要说明的是，第一终端可以在合成多个直播视频帧之后，对多个直播视频帧进行打包，并将打包后的视频文件发送至服务器。

可选地，第一终端还可以在本地播放合成后的连麦直播的第一直播视频帧，第二终端可以基于相同的方式，合成得到连麦直播的第二直播视频帧，并在第二终端播放合成后的连麦直播的第二直播视频帧。

在本公开实施例提供的方法中，如图6所示，在主播用户A开播之后，主播用户B可以进入主播用户A的直播间，接着主播用户A可以邀请主播用户B开播，主播用户B可以接受该邀请并开播。在主播用户A和主播用户B开播之后，可以得到两条直播视频流，即A直播视频流和B直播视频流，这两条直播视频流是独立的。主播用户A可以把主播用户B抱上麦序，并邀请主播用户B进行连麦。在和主播用户B连麦之后，可以开启“连麦斗舞”模式，此时主播用户B的第二终端会接收到已开启“连麦斗舞”模式的通知信息，第二终端会自动断开之前的B直播视频流。同时，直播用户A的第一终端可以加载斗舞舞台场景，通过深度图像采集装置，采集直播用户A的骨骼特征点和人脸特征点，将直播用户A的骨骼特征点和人脸特征点发送至第二终端。第二终端可以基于相同的方式，采集直播用户B的骨骼特征点和人脸特征点，将直播用户B的骨骼特征点和人脸特征点发送至第一终端。第一终端基于直播用户A的骨骼特征点和人脸特征点、以及直播用户B的骨骼特征点和人脸特征点，对第一人物动画模型和第二人物动画模型进行更新，将更新后的人物动画模型叠加在预先加载的斗舞舞台场景中，得到第一直播视频帧，并在本地播放第一直播视频帧。第二终端也可以基于直播用户A的骨骼特征点和人脸特征点、以及直播用户B的骨骼特征点和人脸特征点，对第一人物动画模型和第二人物动画模型进行更新，将更新后的人物动画模型叠加在预先加载的斗舞舞台场景中，得到第二直播视频帧，并在本地播放第二直播视频帧。第一终端还可以将第一直播视频帧对应的“连麦斗舞”视频流上传至服务器，由服务器将“连麦斗舞”视频流下发至各观众用户的终端。在“连麦斗舞”结束时，第一终端和第二终端可以卸载斗舞舞台场景，控制深度摄像头停止继续采集直播用户的骨骼特征点，同时第一终端和第二终端分别恢复之前的直播视频流。

本公开又一示例性实施例提供了一种进行直播的装置，如图7所示，该装置包括：

采集模块710，用于通过图像拍摄部件采集第一连麦人物的视频帧；

识别模块720，用于识别所述第一连麦人物的视频帧中的骨骼特征点，确定所述第一连麦人物的骨骼特征点的三维位置信息；

接收模块730，用于接收服务器发送的第二连麦人物的骨骼特征点的三维位置信息；

确定模块740，用于基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧；

可选地，所述图像拍摄部件包括深度图像拍摄部件；

所述采集模块710，用于通过所述深度图像拍摄部件采集第一连麦人物的三维视频帧；

所述识别模块720，用于识别所述第一连麦人物的三维视频帧中的骨骼特征点；

可选地，所述确定模块740，用于：

可选地，所述确定模块740，还用于确定所述第一连麦人物的视频帧中上眼皮位置和下眼皮位置之间的距离、以及上唇位置和下唇位置之间的距离，作为所述第一连麦人物的表情信息；

所述接收模块730，还用于接收所述服务器发送的所述第二连麦人物的表情信息；

所述确定模块740，用于基于所述第一连麦人物的骨骼特征点的三维位置信息和表情信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息和表情信息，确定所述第二连麦人物对应的第二人物动画视频帧。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

通过本公开实施例提供的装置，可以采集第一连麦人物的视频帧，识别第一连麦人物的视频帧中的骨骼特征点，确定第一连麦人物的骨骼特征点的三维位置信息。基于连麦人物的骨骼特征点的三维位置信息，确定连麦人物的舞姿，接着可以对应调整人物动画视频帧中的人物动画模型的舞姿，将第一连麦人物对应的第一人物动画模型和第二连麦人物对应的第二连麦人物的第二人物动画模型合成到同一斗舞舞台场景中。在本公开实施例中，可以让不同人物动画模型分别模仿两个连麦人物进行跳舞，实现通过人物动画模型进行连麦斗舞的效果。连麦互动方式更加的灵活。

需要说明的是：上述实施例提供的进行直播的装置在进行直播时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的进行直播的装置与进行直播的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本公开一个示例性实施例提供的终端1800的结构示意图。该终端1800可以是上述公开实施例中的第一终端、第二终端。该终端1800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1801所执行以实现本申请中方法实施例提供的进行直播的方法。

在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地，外围设备包括：射频电路1804、触摸显示屏1805、摄像头1806、音频电路1807、定位组件1808和电源1809中的至少一种。

外围设备接口1803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在再一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位终端1800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时，由处理器1801根据用户对触摸显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1814用于采集用户的指纹，由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份，或者，由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商Logo时，指纹传感器1814可以与物理按键或厂商Logo集成在一起。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制触摸显示屏1805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1805的显示亮度；当环境光强度较低时，调低触摸显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种进行直播的方法，其特征在于，所述方法应用在连麦直播过程中的第一终端，所述方法包括：

检测到斗舞指令时，通过服务器向第二终端发起斗舞邀请，所述斗舞邀请用于所述服务器指示所述第一终端和所述第二终端开启斗舞模式，以使所述第一终端和所述第二终端加载预先存储的斗舞舞台场景，其中，开启所述斗舞模式时，所述第二终端停止继续上传主播用户的视频帧，并识别所述视频帧中第二连麦人物的骨骼特征点的三维位置信息，上传所述第二连麦人物的骨骼特征点的三维位置信息；

通过图像拍摄部件采集第一连麦人物的视频帧；

接收所述服务器发送的所述第二连麦人物的骨骼特征点的三维位置信息；

将所述第一人物动画视频帧和所述第二人物动画视频帧进行合成，将其中的所述第一连麦人物的人物动画模型、所述第二连麦人物的人物动画模型同时叠加在同一斗舞舞台场景中，得到本地连麦直播的直播视频帧，向所述服务器发送所述直播视频帧；

所述确定所述第一连麦人物的骨骼特征点的三维位置信息之后，所述方法还包括：

将所述第一连麦人物的骨骼特征点的三维位置信息发送至所述第二终端，以使所述第二终端基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧；将所述第一人物动画视频帧和所述第二人物动画视频帧进行合成，将其中的所述第一连麦人物的人物动画模型、所述第二连麦人物的人物动画模型同时叠加在同一斗舞舞台场景中得到第二直播视频帧，播放所述第二直播视频帧。

2.根据权利要求1所述的方法，其特征在于，所述图像拍摄部件包括深度图像拍摄部件，所述通过图像拍摄部件采集第一连麦人物的视频帧，包括：

识别所述第一连麦人物的三维视频帧中的骨骼特征点；

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一连麦人物的至少一组骨骼特征点对应的位姿信息，确定所述第一连麦人物对应的第一人物动画视频帧，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述第二连麦人物的至少一组骨骼特征点对应的位姿信息，确定所述第二连麦人物对应的第二人物动画视频帧，包括：

6.根据权利要求1所述的方法，其特征在于，在基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧之前，所述方法还包括：

接收所述服务器发送的所述第二连麦人物的表情信息；

7.一种进行直播的装置，其特征在于，所述装置应用在连麦直播过程中的第一终端，说是维护装置用于检测到斗舞指令时，通过服务器向第二终端发起斗舞邀请，所述斗舞邀请用于所述服务器指示所述第一终端和所述第二终端开启斗舞模式，以使所述第一终端和所述第二终端加载预先存储的斗舞舞台场景，其中，开启所述斗舞模式时，所述第二终端停止继续上传主播用户的视频帧，并识别所述视频帧中第二连麦人物的骨骼特征点的三维位置信息，上传所述第二连麦人物的骨骼特征点的三维位置信息；所述装置包括：

接收模块，用于接收所述服务器发送的所述第二连麦人物的骨骼特征点的三维位置信息；

发送模块，用于将所述第一人物动画视频帧和所述第二人物动画视频帧进行合成，将其中的所述第一连麦人物的人物动画模型、所述第二连麦人物的人物动画模型同时叠加在同一斗舞舞台场景中，得到本地连麦直播的直播视频帧，向所述服务器发送所述直播视频帧；

所述确定所述第一连麦人物的骨骼特征点的三维位置信息之后，所述发送模块，还用于将所述第一连麦人物的骨骼特征点的三维位置信息发送至所述第二终端，以使所述第二终端基于所述第一连麦人物的骨骼特征点的三维位置信息，确定所述第一连麦人物对应的第一人物动画视频帧，基于所述第二连麦人物的骨骼特征点的三维位置信息，确定所述第二连麦人物对应的第二人物动画视频帧；将所述第一人物动画视频帧和所述第二人物动画视频帧进行合成，将其中的所述第一连麦人物的人物动画模型、所述第二连麦人物的人物动画模型同时叠加在同一斗舞舞台场景中得到第二直播视频帧，播放所述第二直播视频帧。

8.根据权利要求7所述的装置，其特征在于，所述图像拍摄部件包括深度图像拍摄部件；

9.一种终端，其特征在于，所述终端包括处理器、通信接口、存储器和通信总线，其中：

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，以实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。