CN115883814A

CN115883814A - 实时视频流的播放方法、装置及设备

Info

Publication number: CN115883814A
Application number: CN202310154090.9A
Authority: CN
Inventors: 俞洪蕴; 陈志文; 吕承飞
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-03-31

Abstract

本申请实施例提供一种实时视频流的播放方法、装置及设备，该方法包括：云端获取第二客户端发送的实时视频流，该实时视频流是从至少两个拍摄视角拍摄的；根据实时视频流，确定目标对象的三维模型以及目标对象的纹理特征；向第一客户端发送目标对象的三维模型、纹理特征，以使得第一客户端渲染得到目标对象对应的目标人体模型。本申请实施例中，云端基于多视角实时视频流，重建生成目标对象的三维模型以及纹理特征，之后将该三维模型以及纹理特征发送至第一客户端，使得第一客户端可以融合渲染得到目标对象对应的目标人体模型，这样可以方便用户基于实际需求与目标人体模型进行交互，增强了互动性和趣味性，进而提高了用户的观看体验。

Description

实时视频流的播放方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种实时视频流的播放方法、装置及设备。

背景技术

随着互联网技术的不断发展，实时视频流的播放在各个领域越来越常见，例如网络直播、视频通话、视频会议等。

相关技术中在对实时视频流进行播放时，通常是由客户端接收主播端或者其他客户端的实时视频流进行播放，用户只能被动地基于接收到的实时视频流进行观看，趣味性不高，互动性不强，用户的观看体验不佳。

发明内容

本申请的多个方面提供一种实时视频流的播放方法、装置及设备，用以提高实时视频流播放的趣味性、互动性，提高用户的观看体验。

第一方面，本申请实施例提供一种实时视频流的播放方法，包括：

获取第二客户端发送的实时视频流；所述实时视频流是从至少两个拍摄视角拍摄的；

根据所述实时视频流，确定目标对象的三维模型以及所述目标对象的纹理特征；

向第一客户端发送所述目标对象的三维模型、所述纹理特征，以使得所述第一客户端渲染得到所述目标对象对应的目标人体模型；所述目标人体模型为表征所述目标对象的虚拟人体模型。

在一种可能的实施方式中，所述确定目标对象的三维模型以及所述目标对象的纹理特征，包括：

在每个时刻，根据所述实时视频流，确定所述目标对象对应的多视角图像；

将所述多视角图像输入至预设三维重建模型，得到所述目标对象对应的三维模型；

将所述多视角图像输入至预设特征提取模型，得到所述目标对象对应的纹理特征。

在一种可能的实施方式中，所述方法还包括：

获取第二客户端发送的物品信息；

根据所述物品信息，确定物品三维模型；

向第一客户端发送所述物品三维模型，以使得所述第一客户端展示所述物品三维模型。

在一种可能的实施方式中，所述根据所述物品信息，确定物品三维模型，包括：

根据所述物品信息，在预设模型库中确定所述物品信息对应的目标物品，并且获取所述目标物品对应的物品三维模型；或者，

将所述物品信息输入至预设物品重建模型，获取所述物品信息对应的物品三维模型。

在一种可能的实施方式中，所述方法还包括：

获取第一客户端发送的互动信息；

确定所述互动信息对应的目标动作，并按照所述目标动作调整所述目标对象的三维模型；

向第一客户端发送调整后的目标对象三维模型。

第二方面，本申请实施例提供一种实时视频流的播放方法，应用于第一客户端，包括：

获取云端发送的目标对象三维模型、目标对象纹理特征以及物品三维模型；

将所述目标对象三维模型以及所述目标对象纹理特征进行融合渲染，得到目标对象的目标人体模型；所述目标人体模型为表征所述目标对象的虚拟人体模型；

展示所述目标人体模型以及所述物品三维模型。

在一种可能的实施方式中，所述将所述目标对象三维模型以及所述目标对象纹理特征进行融合渲染，得到目标对象的目标人体模型，包括：

响应于用户针对预设换装控件的触控操作，获取所述触控操作对应的目标纹理特征；

将所述目标对象三维模型与所述目标纹理特征进行融合渲染，得到所述目标人体模型。

在一种可能的实施方式中，所述方法还包括：

响应于用户的交互动作，向云端发送所述交互动作对应的互动信息；

获取云端发送的调整后的目标对象三维模型；

基于调整后的目标对象三维模型进行融合渲染，得到调整后的目标人体模型；

展示所述调整后的目标人体模型。

在一种可能的实施方式中，所述展示所述目标人体模型以及所述物品三维模型，包括：

响应于用户的预设放置操作，获取所述预设放置操作对应的目标位置；所述预设放置操作是所述用户基于增强现实AR设备触发的；

将所述目标人体模型以及所述物品三维模型渲染至所述目标位置。

第三方面，本申请实施例提供一种实时视频流的播放方法，应用于第二客户端，包括：

获取目标对象在至少两个拍摄视角的实时视频流；

向云端发送所述实时视频流；所述云端用于根据所述实时视频流确定所述目标对象的三维模型以及所述目标对象的纹理特征，并且向第一客户端发送所述三维模型以及所述纹理特征。

第四方面，本申请实施例提供一种实时视频流的播放装置，包括：

获取模块，用于获取第二客户端发送的实时视频流；所述实时视频流是从至少两个拍摄视角拍摄的；

确定模块，用于根据所述实时视频流，确定目标对象的三维模型以及所述目标对象的纹理特征；

发送模块，用于向第一客户端发送所述目标对象的三维模型、所述纹理特征，以使得所述第一客户端渲染得到所述目标对象对应的目标人体模型；所述目标人体模型为表征所述目标对象的虚拟人体模型。

在一种可能的实施方式中，所述确定模块，具体用于：

在一种可能的实施方式中，所述装置还用于：

获取第二客户端发送的物品信息；

根据所述物品信息，确定物品三维模型；

在一种可能的实施方式中，所述装置还用于：

获取第一客户端发送的互动信息；

向第一客户端发送调整后的目标对象三维模型。

第五方面，本申请实施例提供一种实时视频流的播放装置，包括：

获取模块，用于获取云端发送的目标对象三维模型、目标对象纹理特征以及物品三维模型；

渲染模块，用于将所述目标对象三维模型以及所述目标对象纹理特征进行融合渲染，得到目标对象的目标人体模型；所述目标人体模型为表征所述目标对象的虚拟人体模型；

展示模块，用于展示所述目标人体模型以及所述物品三维模型。

在一种可能的实施方式中，所述渲染模块，具体用于：

在一种可能的实施方式中，所述装置还用于：

获取云端发送的调整后的目标对象三维模型；

展示所述调整后的目标人体模型。

在一种可能的实施方式中，所述展示模块，具体用于：

第六方面，本申请实施例提供一种实时视频流的播放装置，包括：

获取模块，用于获取目标对象在至少两个拍摄视角的实时视频流；

发送模块，用于向云端发送所述实时视频流；所述云端用于根据所述实时视频流确定所述目标对象的三维模型以及所述目标对象的纹理特征，并且向第一客户端发送所述三维模型以及所述纹理特征。

第七方面，本申请实施例提供一种电子设备，包括：存储器和处理器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行第一方面至第三方面任一项所述的实时视频流的播放方法。

第八方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现第一方面至第三方面任一项所述的实时视频流的播放方法。

第九方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面至第三方面任一项所示的实时视频流的播放方法。

在本申请实施例中，云端获取第二客户端发送的实时视频流，该实时视频流是从至少两个拍摄视角拍摄的；根据实时视频流，确定目标对象的三维模型以及目标对象的纹理特征；向第一客户端发送目标对象的三维模型、纹理特征，以使得第一客户端渲染得到目标对象对应的目标人体模型。本申请实施例中，云端基于第二客户端发送的多视角实时视频流，重建生成目标对象的三维模型以及纹理特征，之后将该三维模型以及纹理特征发送至第一客户端，使得第一客户端可以融合渲染得到目标对象对应的目标人体模型，这样可以方便用户基于实际需求与目标人体模型进行交互，增强了用户与目标对象的互动性，提高了实时视频播放的趣味性，进而提高了用户的观看体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种应用场景的示意图；

图2为本申请示例性实施例提供的一种实时视频流的播放方法的流程示意图；

图3为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图；

图4为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图；

图5为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图；

图6为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图；

图7为本申请示例性实施例提供的一种网络直播场景下实时视频流的播放方法的交互示意图；

图8为本申请示例性实施例提供的一种实时视频流的播放装置的结构示意图；

图9为本申请示例性实施例提供的另一种实时视频流的播放装置的结构示意图；

图10为本申请示例性实施例提供的另一种实时视频流的播放装置的结构示意图；

图11为本申请示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请示例性实施例提供的一种应用场景的示意图。如图1所示，包括第一客户端101、第二客户端102以及云端103。其中，第一客户端101可以为手机、电脑、可穿戴设备等；第二客户端102同样可以为手机、电脑、可穿戴设备等；云端103可以为服务器等设备。

如图1所示出的，第二客户端102可以为实时视频流的拍摄端，例如可以是直播场景的主播端等，该第二客户端102可以获取目标对象（例如主播等）的多视角实时视频流并上传至云端103；云端103基于多视角实时视频流进行模型重建，确定出目标对象的三维模型以及目标对象的纹理特征，并向第一客户端101发送该三维模型以及纹理特征；第一客户端101在获取到三维模型以及纹理特征之后，可以渲染得到目标对象对应的人体模型，用户基于增强现实（Augmented Reality，AR）技术可以与目标对象对应的人体模型进行各种类型的互动，这样能够提高实时视频流播放的趣味性和互动性。

随着互联网技术的迅速发展，实时视频流的播放，例如网络直播等的应用越来越广泛。在相关技术中，在对实时视频流进行播放时，通常是由用户端接收实时视频流进行播放，即用户只能被动地接收到实时视频流进行观看，以网络直播为例，传统网络直播过程中，用户通常只能被动地接受主播面对相机拍摄的实时视频流。可见，相关技术中在实时视频流的播放过程中，用户难以形成有意义的互动，无法满足互联网用户对实时视频流播放的趣味性、互动性等需求，用户的观看体验不佳。

而在本申请实施例中，云端获取第二客户端发送的实时视频流，该实时视频流是从至少两个拍摄视角拍摄的；根据实时视频流，确定目标对象的三维模型以及目标对象的纹理特征；向第一客户端发送目标对象的三维模型、纹理特征，以使得第一客户端渲染得到目标对象对应的目标人体模型。本申请实施例中，云端基于第二客户端发送的多视角实时视频流，重建生成目标对象的三维模型以及纹理特征，之后将该三维模型以及纹理特征发送至第一客户端，使得第一客户端可以融合渲染得到目标对象对应的目标人体模型，这样可以方便用户基于实际需求与目标人体模型进行交互，增强了用户与目标对象的互动性，提高了实时视频播放的趣味性，进而提高了用户的观看体验。

以下通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，以下几个实施例可以单独存在，也可以相互结合，对于相同或相似的内容，在不同的实施例中不再重复说明。

图2为本申请示例性实施例提供的一种实时视频流的播放方法的流程示意图。请参见图2，该方法可以包括：

S201、获取第二客户端发送的实时视频流；实时视频流是从至少两个拍摄视角拍摄的。

本申请实施例的执行主体可以为云端，也可以为设置在云端中的实时视频流的播放装置。该实时视频流的播放装置可以通过软件实现，也可以通过软件和硬件的结合实现。为了便于理解，在下文中，以执行主体为云端为例进行说明。

本申请实施例中，第二客户端可以是指实时视频流的拍摄端，在网络直播场景中具体可以为主播端，即主播侧对应的客户端。实时视频流可以是指目标对象（例如主播等）在每个时刻下的音视频数据。该实时视频流是从至少两个拍摄视角拍摄得到的，具体可以是指红、绿、蓝色彩模式（RGB color mode）下的视频流。

本步骤中，第二客户端可以接收由不同机位的多个摄像机组成的摄像系统发送的音视频数据，得到实时视频流。具体的，摄像系统可以包括位于主播正面、侧面、背后等不同拍摄视角的摄像机，各个机位的摄像机从不同视角实时记录下目标对象在每一时刻的动作图像，形成实时视频流并将实时视频流发送至第二客户端，第二客户端可以将多视角的实时视频流上传至云端。这样，通过对目标对象的多个视角进行拍摄，能够确保数据的全面性，进而能够提高后续模型重建的准确度。

S202、根据实时视频流，确定目标对象的三维模型以及目标对象的纹理特征。

本申请实施例中，目标对象可以是指主播或者其他用户等。三维模型可以是指目标对象的3D模型，主要用于表征目标对象的动作和体型等。纹理特征可以是指目标对象的外观特征，例如目标对象的衣服、发型、皮肤质地等。

本步骤中，云端在接收到第二客户端发送的实时视频流之后，可以从实时视频流中确定出目标对象在各个时刻不同拍摄视角下的实时RGB图像，然后可以基于某一时刻的多视角RGB图像进行人体结构重建和外观纹理重建，得到目标对象的三维模型（3D Mesh）以及目标对象的纹理特征。这样，云端通过将三维模型与纹理特征分离开，分别进行重建操作，后续再分别发送至第一客户端，能够避免直接重建人体模型并进行传输时传输压力较大的问题，提高视频播放的实时性，降低视频播放的时延。

S203、向第一客户端发送目标对象的三维模型、纹理特征，以使得第一客户端渲染得到目标对象对应的目标人体模型；所述目标人体模型为表征所述目标对象的虚拟人体模型。

在本申请实施例中，第一客户端可以是指用户即实时视频流的观众所使用的客户端。目标人体模型可以是指目标对象对应的人体模型，该目标人体模型是基于三维模型和纹理特征融合渲染得到的，能够表征目标对象的形态动作以及外观。

本步骤中，云端在重建得到目标对象的三维模型以及纹理特征之后，可以将该三维模型以及纹理特征发送至第一客户端。第一客户端可以将三维模型和纹理特征融合渲染，得到目标对象的目标人体模型。这样，用户可以基于AR等技术将目标对象的目标人体模型放置到现实场景的指定位置或者进行各种类型的互动，能够提高实时视频流播放的趣味性，增加用户的沉浸感。

本申请实施例中，云端获取第二客户端发送的实时视频流，该实时视频流是从至少两个拍摄视角拍摄的；根据实时视频流，确定目标对象的三维模型以及目标对象的纹理特征；向第一客户端发送目标对象的三维模型、纹理特征，以使得第一客户端渲染得到目标对象对应的目标人体模型。本申请实施例中，云端基于第二客户端发送的多视角实时视频流，重建生成目标对象的三维模型以及纹理特征，之后将该三维模型以及纹理特征发送至第一客户端，使得第一客户端可以融合渲染得到目标对象对应的目标人体模型，这样可以方便用户基于实际需求与目标人体模型进行交互，增强了用户与目标对象的互动性，提高了实时视频播放的趣味性，进而提高了用户的观看体验。

在上述实施例的基础上，图3为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图。请参见图3，该方法可以包括：

S301、获取第二客户端发送的实时视频流；实时视频流是从至少两个拍摄视角拍摄的。

本步骤的具体实现方式可以参照前述步骤S201，本申请实施例在此不再赘述。

S302、在每个时刻，根据实时视频流，确定目标对象对应的多视角图像；将多视角图像输入至预设三维重建模型，得到目标对象对应的三维模型；将多视角图像输入至预设特征提取模型，得到目标对象对应的纹理特征。

本申请实施例中，多视角图像可以是指目标对象在当前时刻不同视角的RGB图像。预设三维重建模型可以用于进行人体三维模型的重建，该预设三维重建模型的输入是某一时刻下主播的多视角图像，该预设三维重建模型的输出是在当前时刻下目标对象的三维模型。该预设三维重建模型具体可以基于人体三维重建算法训练得到，通过该预设三维重建模型得到的三维模型是三维计算机图形学中表示多面体形状的顶点与多边形的集合，通常由三角形、四边形或者其它的简单凸多边形组成，基于该三维模型进行融合渲染时，可以简化渲染过程。当然，预设三维重建模型也可以基于其他算法或者算法组合训练得到，本申请实施例对此不作限定。

预设特征提取模型可以用于进行外观纹理特征的提取。该预设特征提取模型的输入是主播的多视角图像，输出是一个表征纹理特征的特征图，该特征图的尺寸可以为256 *256像素。预设特征提取模型具体可以是一个编码器解码器结构（Encoder-Decoder）的深度学习模型。当然，该预设特征提取模型也可以基于其他算法或者算法组合训练得到，例如残差网络（ResNet）或者卷积神经网络；并且，除了特征图之外，纹理特征的具体表示形式也可以采用其他方式，例如特征向量等，本申请实施例对此均不作限定。

本步骤中，云端在接收到实时视频流之后，可以获取每个时刻下目标对象的多视角图像，之后进行人体结构重建和外观纹理重建。在人体结构重建过程中，云端可以将每个时刻的多视角图像输入至预设三维重建模型中，得到每个时刻下目标对象的三维模型。在外观纹理重建过程中，云端可以将每个时刻的多视角图像输入至预设特征提取模型中，得到目标对象对应的纹理特征，用于表征每个时刻下目标对象的外观、纹理、质地等信息。这样，云端将三维模型重建与纹理特征重建分离开，后续分别发送至第二客户端，能够提高重建的真实性，也能够提高传输效率，相较于直接重建完整的三维人体模型并传输的方式，能够减小传输压力，节约系统资源。

S303、获取第二客户端发送的物品信息；根据物品信息，确定物品三维模型；向第一客户端发送物品三维模型，以使得第一客户端展示物品三维模型。

本申请实施例中，物品信息可以是指在实时视频流的播放过程中目标对象所介绍的商品等物品的相关信息，具体可以为物品的型号、外观、颜色、价格等信息，也可以是指物品在至少两个拍摄视角下拍摄的RGB图像等，本申请实施例对于物品信息的具体种类不作限定。物品三维模型可以是指物品对应的三维重建模型，能够表征物品的形状、大小、外观等。

本步骤中，在网络直播等实时视频流的播放场景中，目标对象通常需要对某些商品进行介绍。第二客户端可以接收目标对象上传的物品信息，并将该物品信息上传至云端；云端可以根据该物品信息进行物品的三维重建，得到物品三维模型。之后云端可以向第一客户端发送该物品三维模型，使得第一客户端能够展示该物品三维模型。这样，云端能够实时地重建出精细的目标对象的人体三维形象，同时也能够生成与物品三维模型，用户通过第一客户端可以直观地获取到物品三维模型，实现目标对象对应的目标人体模型与物品三维模型的合理互动，能够提高实时视频流播放的趣味性，提高用户的沉浸感。

在一种可能的实施方式中，物品三维模型具体可以通过如下方式创建：

根据物品信息，在预设模型库中确定物品信息对应的目标物品，并且获取目标物品对应的物品三维模型；或者，将物品信息输入至预设物品重建模型，获取物品信息对应的物品三维模型。

本申请实施例中，预设模型库可以是指预先设置的物品三维模型库，其中包括有各种物品及其对应的物品三维模型。目标物品可以是指第二客户端上传的物品信息所对应的目标物品。具体的，云端在获取到物品信息之后，可以首先确定预设模型库中是否包括该物品信息对应的目标物品，若存在，可以根据目标物品的标识信息（Identity Document，ID）获取到目标物品对象的物品三维模型。这样，云端基于预设模型库来确定物品三维模型，能够提高模型的重建效率，减小计算量，节约系统资源。

本申请实施例中，预设物品重建模型可以用于进行物品三维模型的重建。该预设物品重建模型的输入可以是物品信息，输出可以是物品信息对应的物品三维模型。预设物品重建模型具体可以基于物体重建算法（Nerf）训练得到，当然，该预设物品重建模型也可以基于其他算法或者算法组合训练得到，本申请实施例对此不作限定。具体的，当物品信息在预设模型库中并未匹配到对应的目标物品，或者云端在接收到物品信息时，云端可以将物品信息输入至预设物品重建模型中，得到该物品信息对应的物品三维模型。这样，云端通过物品重建模型来重建物品三维模型，能够确保物品三维模型的准确重建，可以避免物品无法展示的情况，提高用户实时视频流观看体验。

需要说明的是，由于物品信息可以在实时视频流播放开始前上传至云端的，云端在获取到物品信息后，可以提前进行物品三维模型的确定，例如云端可以在后台隐式地进行物品三维模型的重建，在目标对象需要介绍某个物品时可以直接加载使用，无需等到目标对象需要介绍某个物品时才去进行物品三维模型的确定，这样能够提高实时视频流播放的流畅性和实时性，减少目标对象与用户的等待时间。

S304、向第一客户端发送目标对象的三维模型、纹理特征，以使得第一客户端渲染得到目标对象对应的目标人体模型；目标人体模型为表征目标对象的虚拟人体模型。

本步骤的具体实现方式可以参照前述步骤S203，本申请实施例在此不再赘述。

S305、获取第一客户端发送的互动信息；确定互动信息对应的目标动作，并按照目标动作调整目标对象的三维模型；向第一客户端发送调整后的目标对象三维模型。

本申请实施例中，互动信息可以是指用户向目标对象反馈的各种类型的交互信息，其中可以包括具体的交互动作，例如可以是“点赞”动作、“比心”动作等，也可以是用户的模型缩放操作或者视角调整操作等，本申请实施例对应互动信息中具体交互动作的类型不作限定。目标动作可以是指用户的交互动作对应的目标对象动作，例如，当互动信息中包括的用户交互动作为“点赞”动作时，目标动作可以为点头动作或者鞠躬动作等。

本步骤中，在实时视频流的播放过程中，用户可以与目标对象进行各种类型的交互。第一客户端可以通过前置摄像头等拍摄模块，可以实时检测用户在实时视频流观看过程中的表情、动作等，同时结合预设识别算法，可以确定用户是否存在交互动作。当第一客户端确定用户存在交互动作时，可以向云端发送交互动作对应的互动信息。云端在接收到该互动信息时，可以确定出互动信息所对应的目标动作，之后可以基于该目标动作以及预设三维重建模型来调整目标对象的三维模型，之后将调整后的三维模型发送至第一客户端，实现对用户交互动作的反馈和回应。这样，云端基于互动信息可以适当地调整目标对象的三维模型的动作形态，从而实现对用户特殊的交互动作的响应，进而实现与用户的动作互动，能够增加用户的沉浸感，增强实时视频流播放的趣味性。

在上述实施例的基础上，以下从第二客户端的角度，具体阐述实时视频流的播放方法的具体实现过程。图4为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图。请参见图4，该方法可以包括：

S401、获取目标对象在至少两个拍摄视角的实时视频流。

S402、向云端发送实时视频流；云端用于根据实时视频流确定目标对象的三维模型以及目标对象的纹理特征，并且向第一客户端发送三维模型以及纹理特征。

本申请实施例中，第二客户端具体可以是指实时视频流的拍摄端，例如可以是网络直播场景中的主播端。除了视频流之外，第二客户端还可以获取到物品信息并向云端发送该物品信息。第二客户端可以基于不同拍摄视角的摄像机来获取到目标对象在至少两个拍摄视角的实时视频流，同时可以获取到物品信息。需要说明的是，该物品信息可以是目标对象直接输入至第二客户端中的，也可以是第二客户端获取不同拍摄视角的摄像机拍摄的多视角图像等，本申请实施例对于物品信息的具体获取方式不作限定。在获取到实时视频流和物品信息之后，第二客户端可以向云端发送实时视频流以及物品信息，使得云端基于实时视频流和物品信息能够进行三维重建。

本申请实施例中，第二客户端获取目标对象在至少两个拍摄视角的实时视频流，并且获取物品信息，之后向云端发送实时视频流以及物品信息。这样，第二客户端通过上传多视角的实时视频流，数据更加全面，能够提高模型重建的准确度。

在上述实施例的基础上，以下从第一客户端的角度，阐述本申请实施例中实时视频流的播放方法的具体实现过程。图5为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图。请参见图5，该方法可以包括：

S501、获取云端发送的目标对象三维模型、目标对象纹理特征以及物品三维模型。

本申请实施例中，第一客户端可以为实时视频流观众即用户对应的客户端。第一客户端可以接收目标对象的三维模型、纹理特征以及物品三维模型。

S502、将目标对象三维模型以及目标对象纹理特征进行融合渲染，得到目标对象的目标人体模型；目标人体模型为表征目标对象的虚拟人体模型。

本申请实施例中，第一客户端在获取到目标对象三维模型以及目标对象纹理特征之后，可以将三维模型以及纹理特征进行融合渲染，具体可以基于生成对抗网络（Generative Adversarial Network，GAN）等算法来实现，将纹理特征渲染到三维模型上，得到目标对象对应的目标人体模型，能够提高模型的重建质量，提高视觉真实感。当然，第一客户端在融合渲染过程中，也可以采用其他融合算法例如深度学习算法等，本申请实施例对此不作限定。

S503、展示目标人体模型以及物品三维模型。

本申请实施例中，第一客户端在获取到目标人体模型之后，可以向用户展示目标人体模型以及物品三维模型，形象直观，能够提高实时视频流播放的趣味性。

在上述实施例的基础上，图6为本申请示例性实施例提供的另一种实时视频流的播放方法的流程示意图。请参见图6，该方法可以包括：

S601、获取云端发送的目标对象三维模型、目标对象纹理特征以及物品三维模型。

S602、响应于用户针对预设换装控件的触控操作，获取触控操作对应的目标纹理特征；将目标对象三维模型与目标纹理特征进行融合渲染，得到目标人体模型。

本申请实施例中，预设换装控件可以是指预选设置的、能够一键更换目标对象服装的功能控件。目标纹理特征可以是指用户最终选择的外观纹理特征。

本步骤中，云端在进行三维重建时，三维模型重建和纹理特征的重建是分离开的，分别得到了目标对象的三维模型和纹理特征，这样，用户可以基于实际需求来更换目标对象的外观纹理特征，实现目标对象着装等的外观变换。具体的，当用户需要改变目标对象三维模型的外观纹理特征时，可以触控预设换装控件并选择目标对象三维模型最终使用的目标纹理特征；第一客户端响应于该触控操作，确定出用户选中的目标纹理特征，并将该目标纹理特征融合渲染至目标对象的三维模型上，得到目标对象对应的目标人体模型。这样，第一客户端可以基于用户的触控操作来更换目标对象三维模型的外观纹理特征，能够实现目标对象外观的变换，例如在网络直播等场景中用户可以基于实际需求实现对主播的“一键换装”，能够满足用户的实际需求，提高实时视频流观看的趣味性。

S603、响应于用户的预设放置操作，获取预设放置操作对应的目标位置；预设放置操作是用户基于增强现实AR设备触发的；将目标人体模型以及物品三维模型渲染至目标位置。

本申请实施例中，预设放置操作可以是指用户将目标人体模型以及物品三维模型放置到实际场景中特征位置的放置操作。目标位置可以是指用户指定的放置位置。

本步骤中，用户基于与第一客户端关联的增强现实AR设备或者功能模块，例如移动端AR工具等，可以将目标对象的目标人体模型和物品三维模型放置到现实场景中的特定位置，满足与场景的搭配等需求。具体的，用户可以触发预设放置操作，第一客户端响应于该预设放置操作，通过进行平面检测来确认目标位置，并将目标人体模型和物品三维模型渲染至目标位置，实现模型与场景的匹配。这样，用户可以通过AR相机等工具自由地将目标对象的目标人体模型置于现实场景中，身临其境地体验实时视频流的播放现场，视频观看的趣味性更强。

S604、响应于用户的交互动作，向云端发送交互动作对应的互动信息；获取云端发送的调整后的目标对象三维模型；基于调整后的目标对象三维模型进行融合渲染，得到调整后的目标人体模型；展示调整后的目标人体模型。

本申请实施例中，在实时视频流的播放过程中，第一客户端可以实时检测用户的表情和动作等，确定用户是否存在交互动作；在确定出用户存在交互动作时，可以向云端发送交互动作对应的交互信息；云端基于交互信息确定出三维模型的目标动作，并对三维模型进行调整，得到调整后的三维模型并返回给第一客户端；第一客户端可以基于调整后的目标对象三维模型进行融合渲染，得到并且展示调整后的目标人体模型。

需要说明的是，用户的交互动作还可以包括观看角度调整、模型大小缩放等，本申请实施例对此不作限定。这样，用户可以根据自己的需要调整目标对象的人体模型的大小、位置、远近、观看视角等，并且可以通过各种动作与目标对象的目标人体模型进行互动，云端根据第一客户端发送的交互信息可以渲染出不同的目标对象三维模型，能够实现对用户动作的反馈，提高了用户观看实时视频流的沉浸感，增强了实时视频流播放的交互性，能够形成新奇有趣的视频观看体验。

在上述任意一个实施例的基础上，图7为本申请示例性实施例提供的一种网络直播场景下实时视频流播放方法的交互示意图。如图7所示出的，在网络直播场景中，第二客户端为主播端，可以获取至少两个拍摄视角的直播视频流（实时视频流）以及物品信息。之后，第二客户端一方面可以将直播视频流发送至第一客户端，实现传统网络直播的播放，在该传统直播播放模式下用户可以选择不同的拍摄视角进行观看，可以提高视频播放的多样性，一定程度上能够提高用户的观看体验；另一方面第二客户端可以将直播视频流以及物品信息发送至云端。

云端可以根据直播视频流确定出每个时刻下主播（即目标对象）的多视角RGB图像，然后将该多视角RGB图像输入至预设三维重建模型进行三维重建，得到主播的人体三维模型（即目标对象三维模型）；同时将该多视角RGB图像输入至预设特征提取模型中进行材质建模，得到主播的纹理特征；并且同时基于物品信息进行三维重建，确定出物品三维模型。之后云端可以将主播的人体三维模型、主播的纹理特征以及物品三维模型发送至第一客户端。

第一客户端可以将接收到的主播的人体三维模型以及纹理特征进行融合渲染，得到目标人体AR模型（即目标人体模型），然后可以根据用户的预设放置操作，进行平面检测并确定出目标位置（放置点确认），然后通过渲染引擎将目标人体AR模型以及物品三维模型渲染至目标位置，能够实现目标人体模型与物品三维模型的合理互动，并且能够与现实场景相结合，能够提高直播的趣味性，增强用户的沉浸感。

需要说明的，用户可以针对目标人体AR模型进行各种类型的交互，例如互动动作、调整观看角度或者模型大小的缩放等，第一客户端可以将互动信息发送至云端，云端基于互动信息确定出目标动作并对主播的人体三维模型进行调整，然后将调整后的主播三维模型发送至第一客户端，实现对用户交互动作的反馈，增强直播过程中的交互性。

相关技术中，在虚拟主播的传统网络直播方案中，虚拟主播一般以人脸和半身动作的位姿估计作为驱动，控制一个固定形象的表情和半身动作。也就是说，虚拟主播一般只驱动控制一个固定的虚拟形象，缺乏真实感。并且虚拟主播一般只能控制表情和半身，缺乏用户互动和物体互动。

而在本申请实施例中，云端基于预设三维重建模型可以直接从目标对象的多视角图像中重建出具体的目标对象的三维模型，能够表征目标对象的各种姿态动作。这样，通过三维模型重建的方式，真实感更强，避免了表情动作驱动方式中只能驱动一个固定形象、缺乏真实感的缺点。并且，在本申请实施例中，云端将结构重建和纹理重建分离，将同一目标对象的视觉形象解码成人体三维模型和纹理特征，第一客户端可以通过生成对抗网络来对两者进行融合渲染，得到目标人体模型。这样，一方面可以降低模型传输的压力，提高视频流的实时性；另一方面，用户可以选择替换不同纹理来变化目标对象的形象，能够提高实时视频流播放的趣味性。

图8为本申请示例性实施例提供的一种实时视频流的播放装置的结构示意图，请参见图8，该实时视频流的播放装置80包括：

获取模块81，用于获取第二客户端发送的实时视频流；实时视频流是从至少两个拍摄视角拍摄的；

确定模块82，用于根据实时视频流，确定目标对象的三维模型以及目标对象的纹理特征；

发送模块83，用于向第一客户端发送目标对象的三维模型、纹理特征，以使得所述第一客户端渲染得到所述目标对象对应的目标人体模型；目标人体模型为表征目标对象的虚拟人体模型。

在一种可能的实施方式中，确定模块82，具体用于：

在每个时刻，根据实时视频流，确定目标对象对应的多视角图像；

将多视角图像输入至预设三维重建模型，得到目标对象对应的三维模型；

将多视角图像输入至预设特征提取模型，得到目标对象对应的纹理特征。

在一种可能的实施方式中，装置80还用于：

获取第二客户端发送的物品信息；

根据物品信息，确定物品三维模型；

向第一客户端发送物品三维模型，以使得第一客户端展示物品三维模型。

在一种可能的实施方式中，装置80还用于：

根据物品信息，在预设模型库中确定物品信息对应的目标物品，并且获取目标物品对应的物品三维模型；或者，

将物品信息输入至预设物品重建模型，获取物品信息对应的物品三维模型。

在一种可能的实施方式中，装置80还用于：

获取第一客户端发送的互动信息；

确定互动信息对应的目标动作，并按照目标动作调整目标对象的三维模型；

向第一客户端发送调整后的目标对象三维模型。

本申请实施例提供的实时视频流的播放装置80可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

图9为本申请示例性实施例提供的另一种实时视频流的播放装置的结构示意图，请参见图9，该实时视频流的播放装置90包括：

获取模块91，用于获取云端发送的目标对象三维模型、目标对象纹理特征以及物品三维模型；

渲染模块92，用于将目标对象三维模型以及目标对象纹理特征进行融合渲染，得到目标对象的目标人体模型；目标人体模型为表征目标对象的虚拟人体模型；

展示模块93，用于展示目标人体模型以及物品三维模型。

在一种可能的实施方式中，渲染模块92，具体用于：

响应于用户针对预设换装控件的触控操作，获取触控操作对应的目标纹理特征；

将目标对象三维模型与目标纹理特征进行融合渲染，得到目标人体模型。

在一种可能的实施方式中，装置90还用于：

响应于用户的交互动作，向云端发送交互动作对应的互动信息；

获取云端发送的调整后的目标对象三维模型；

展示调整后的目标人体模型。

在一种可能的实施方式中，展示模块93，具体用于：

响应于用户的预设放置操作，获取预设放置操作对应的目标位置；预设放置操作是用户基于增强现实AR设备触发的；

将目标人体模型以及物品三维模型渲染至目标位置。

本申请实施例提供的实时视频流的播放装置90可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

图10为本申请示例性实施例提供的另一种实时视频流的播放装置的结构示意图，请参见图10，该实时视频流的播放装置100包括：

获取模块1001，用于获取目标对象在至少两个拍摄视角的实时视频流；

发送模块1002，用于向云端发送实时视频流；云端用于根据实时视频流确定目标对象的三维模型以及目标对象的纹理特征，并且向第一客户端发送三维模型以及纹理特征。

本申请实施例提供的实时视频流的播放装置100可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

图11为本申请示例性实施例提供的一种电子设备的结构示意图，请参见图11，该电子设备110可以包括处理器111和存储器112。示例性地，处理器111、存储器112，各部分之间通过总线113相互连接。

存储器112存储计算机执行指令；

处理器111执行存储器112存储的计算机执行指令，使得处理器111执行如上述方法实施例所示的实时视频流的播放方法。

相应地，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当计算机执行指令被处理器执行时用于实现上述方法实施例的实时视频流的播放方法。

相应地，本申请实施例还可提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，可实现上述方法实施例所示的实时视频流的播放方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种实时视频流的播放方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定目标对象的三维模型以及所述目标对象的纹理特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第二客户端发送的物品信息；

根据所述物品信息，确定物品三维模型；

4.根据权利要求3所述的方法，其特征在于，所述根据所述物品信息，确定物品三维模型，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

获取第一客户端发送的互动信息；

向第一客户端发送调整后的目标对象三维模型。

6.一种实时视频流的播放方法，其特征在于，应用于第一客户端，包括：

展示所述目标人体模型以及所述物品三维模型。

7.根据权利要求6所述的方法，其特征在于，所述将所述目标对象三维模型以及所述目标对象纹理特征进行融合渲染，得到目标对象的目标人体模型，包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取云端发送的调整后的目标对象三维模型；

展示所述调整后的目标人体模型。

9.根据权利要求6至8任一项所述的方法，其特征在于，所述展示所述目标人体模型以及所述物品三维模型，包括：

10.一种实时视频流的播放方法，其特征在于，应用于第二客户端，包括：

获取目标对象在至少两个拍摄视角的实时视频流；

11.一种实时视频流的播放装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1至10任一项所述的实时视频流的播放方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现权利要求1至10任一项所述的实时视频流的播放方法。

14.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1至10任一项所述的实时视频流的播放方法。