CN117544808A

CN117544808A - 设备控制方法、存储介质和电子设备

Info

Publication number: CN117544808A
Application number: CN202210924970.5A
Authority: CN
Inventors: 黄从韬; 金亮
Original assignee: Tencent Cyber Shenzhen Co Ltd
Current assignee: Tencent Cyber Shenzhen Co Ltd
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2024-02-09

Abstract

本申请公开了一种虚拟直播方法、装置和存储介质及电子设备。其中，该方法包括：获取第一账号在直播时的第一视频片段，其中，第一视频片段中包含第一账号关联的实物对象所在的视频片段；对第一视频片段中的视频片段进行图像识别，并基于图像识别的结果得到实物对象的方位特征，其中，方位特征用于表示实物对象的结构元素对应的方向位置信息；在获取到方位特征对应的指示数据的情况下，将指示数据传输至第二账号的客户端，以使第一账号的客户端播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，可应用在虚拟直播场景，还可涉及数据传输、虚拟化等技术。本申请解决了设备控制效率较低的技术问题。

Description

设备控制方法、存储介质和电子设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种设备控制方法、装置和存储介质及电子设备。

背景技术

在虚拟直播的场景中，通常会利用一个或多个虚拟对象来代替主播进行直播，但这种直播方式通常无法很好地还原主播的特点，如无法及时同步主播的表情、动作等，进而无法满足较高的主播和观众之间的交互体验；

而相关技术对于虚拟直播中对主播的同步，通常采用的方式为在主播本地进行虚拟对象的视频渲染，再将渲染好的虚拟对象以视频流的方式传输至各个观众的客户端中，其本质上在观众渲染的是一个视频；这种虚拟直播的方式虽然实现了对主播的同步，但其限制于视频编码和网络带宽，如高清的视频流量成本很高、低码率的视频又不清晰等，仍会影响到主播和观众之间的交互体验。因此，相关技术存在虚拟直播的交互体验较差的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种虚拟直播方法、装置和存储介质及电子设备，以至少解决虚拟直播效率较低的技术问题。

根据本申请实施例的一个方面，提供了一种虚拟直播方法，包括：

获取第一账号在直播时的第一视频片段，其中，上述第一视频片段中包含上述第一账号关联的实物对象所在的视频片段；

对上述第一视频片段中的视频片段进行图像识别，并基于上述图像识别的结果得到上述实物对象的方位特征，其中，上述方位特征用于表示上述实物对象的结构元素对应的方向位置信息；

在获取到上述方位特征对应的指示数据的情况下，将上述指示数据传输至第二账号的客户端，以使上述第二账号的客户端播放上述指示数据对应的第二视频片段，其中，上述第二视频片段中包含上述第一账号关联的虚拟对象所在的视频片段，上述指示数据用于指示上述虚拟对象执行与上述实物对象同步的操作。

根据本申请实施例的另一方面，还提供了一种虚拟直播装置，包括：

第一获取单元，用于获取第一账号在直播时的第一视频片段，其中，上述第一视频片段中包含上述第一账号关联的实物对象所在的视频片段；

第一识别单元，用于对上述第一视频片段中的视频片段进行图像识别，并基于上述图像识别的结果得到上述实物对象的方位特征，其中，上述方位特征用于表示上述实物对象的结构元素对应的方向位置信息；

第一传输单元，用于在获取到上述方位特征对应的指示数据的情况下，将上述指示数据传输至第二账号的客户端，以使上述第二账号的客户端播放上述指示数据对应的第二视频片段，其中，上述第二视频片段中包含上述第一账号关联的虚拟对象所在的视频片段，上述指示数据用于指示上述虚拟对象执行与上述实物对象同步的操作。

作为一种可选的方案，上述装置还包括：

第二获取单元，用于在上述将上述指示数据传输至第二账号的客户端之前，获取上述第一视频片段中的各帧视频图像；

第一确定单元，用于在上述将上述指示数据传输至第二账号的客户端之前，从上述各帧视频图像中确定出重复视频图像，其中，上述重复视频图像包括图像内容的相似度大于或等于预设阈值的至少两帧视频图像；

第二确定单元，用于将上述重复视频图像对应的方位特征确定为第一方位特征；

第一处理单元，用于在上述将上述指示数据传输至第二账号的客户端之前，对上述第一方位特征以及上述各帧视频图像中除上述重复视频图像外的其他视频图像对应的第二方位特征进行整合处理，得到上述指示数据。

作为一种可选的方案，上述第一处理单元，包括：第一获取模块，用于获取目标传输协议的数据传输参数，其中，上述目标传输协议用于传输上述指示数据至上述第一账号的客户端，上述数据传输参数用于指示通过上述目标传输协议进行传输时的数据要求；第一确定模块，用于基于上述数据传输参数确定单个数据的预设传输量，其中，上述预设传输量小于或等于上述数据传输参数指示的上述单个数据通过上述目标传输协议进行传输时的上限传输量；第一处理模块，用于利用上述预设传输量对上述第一方位特征以及上述第二方位特征进行分包处理，得到多个方位特征数据包，其中，上述方位特征数据包的数据量小于或等于上述预设传输量。

作为一种可选的方案，上述第一识别单元，包括：第一识别模块，用于对上述第一视频片段进行图像识别，得到多个姿态特征点，其中，上述姿态特征点为上述实物对象中的各个结构元素对应的位置点；第二获取模块，用于基于上述多个姿态特征点获取上述方位特征。

作为一种可选的方案，上述第二获取模块，包括：第一获取子模块，用于基于目标结构元素对应的姿态特征点，获取上述目标结构元素的方向信息、以及上述目标结构元素在目标区域内的位置信息，其中，上述实物对象的结构元素包括上述目标结构元素，上述目标区域为上述目标结构元素所属的元素类型下的结构元素在上述实物对象上的预设区域；第一确定子模块，用于根据上述方向信息以及上述位置信息确定上述目标结构元素对应的方位特征。

作为一种可选的方案，上述第一识别模块，包括以下至少之一：第一识别子模块，用于对上述第一视频片段进行第一图像识别，得到脸部姿态特征点；第二识别子模块，用于对上述第一视频片段进行第二图像识别，得到行为姿态特征点；第三识别子模块，用于对上述第一视频片段进行第三图像识别，得到肢体姿态特征点。

作为一种可选的方案，上述第一识别模块，包括：第四识别子模块，用于对上述第一视频片段进行上述图像识别，得到初始姿态特征点；第五识别子模块，用于在上述初始姿态特征点未达到指示条件的情况下，对上述第一视频片段进行音频识别，得到音频特征；第一结合子模块，用于结合上述初始姿态特征点以及上述音频特征，得到上述姿态特征点。

作为一种可选的方案，上述第一传输单元，包括：第一传输模块，用于将上述指示数据以及上述第一视频片段对应的音频数据传输至第二账号的客户端，以使上述第一账号的客户端播放上述指示数据对应的画面、以及同步播放上述音频数据对应的音频。

接收第一账号的客户端传播的、方位特征对应的指示数据，其中，上述方位特征用于表示上述第一账号关联的实物对象的结构元素对应的方向位置信息，上述第一客户端在直播时的第一视频片段中包含上述实物对象所在的视频片段，上述方位特征为对上述第一视频片段中的视频片段进行图像识别、并基于上述图像识别的结果得到的、上述实物对象的特征；

播放上述指示数据对应的第二视频片段，其中，上述第二视频片段中包含上述第一账号关联的虚拟对象所在的视频片段，上述指示数据用于指示上述虚拟对象执行与上述实物对象同步的操作。

第一接收单元，用于接收第一账号的客户端传播的、方位特征对应的指示数据，其中，上述方位特征用于表示上述第一账号关联的实物对象的结构元素对应的方向位置信息，上述第一客户端在直播时的第一视频片段中包含上述实物对象所在的视频片段，上述方位特征为对上述第一视频片段中的视频片段进行图像识别、并基于上述图像识别的结果得到的、上述实物对象的特征；

第一播放单元，用于播放上述指示数据对应的第二视频片段，其中，上述第二视频片段中包含上述第一账号关联的虚拟对象所在的视频片段，上述指示数据用于指示上述虚拟对象执行与上述实物对象同步的操作。

作为一种可选的方案，上述第一播放单元，在上述播放上述指示数据对应的第二视频片段之前，上述方法还包括：第三获取单元，用于获取上述指示数据对应的初始视频片段；第一生成单元，用于在上述初始视频片段的第一视频内容未达到播放条件的情况下，基于上述第一视频内容生成第二视频内容；第一结合单元，用于结合上述第一视频内容与上述第二视频内容，得到目标视频内容；第一渲染单元，用于对上述目标视频内容进行渲染，得到上述第二视频片段。

作为一种可选的方案，上述第一结合单元，包括：第一插入模块，用于在上述初始视频片段包括至少两个连续的视频帧的情况下，将上述第二视频内容插入上述至少两个连续的视频帧中间，得到至少三个连续的视频帧，其中，上述至少三个连续的视频帧包括上述至少两个连续的视频帧、以及上述第二视频内容；第二确定模块，用于将上述至少三个连续的视频帧的视频内容作为上述目标视频内容。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上虚拟直播方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的虚拟直播方法。

在本申请实施例中，获取第一账号在直播时的第一视频片段，其中，上述第一视频片段中包含上述第一账号关联的实物对象所在的视频片段；对上述第一视频片段中的视频片段进行图像识别，并基于上述图像识别的结果得到上述实物对象的方位特征，其中，上述方位特征用于表示上述实物对象的结构元素对应的方向位置信息；在获取到上述方位特征对应的指示数据的情况下，将上述指示数据传输至第二账号的客户端，以使上述第二账号的客户端播放上述指示数据对应的第二视频片段，其中，上述第二视频片段中包含上述第一账号关联的虚拟对象所在的视频片段，上述指示数据用于指示上述虚拟对象执行与上述实物对象同步的操作，通过深度学习模型和图像识别技术对实物对象的特征进行识别和提取，将识别后的方位特征对应的指示数据直接传输至观众端，由观众端进行模型渲染，进而摆脱了宽带传输量和客户端计算量的限制，提高了传输过程的精简性，实现了降低传输的数据量，使得无论在宽带传输量较小，还是客户端配置较低端时，仍可以在观众客户端呈现高画质的直播画面，从而实现了受限于视频编码和网络宽带的情况下，提高用户交互体验的技术效果，进而解决了限制于视频编码和网络带宽时，主播和观众之间的交互体验较差的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的虚拟直播方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的虚拟直播方法的流程的示意图；

图3是根据本申请实施例的一种可选的虚拟直播方法的示意图；

图4是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图5是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图6是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图7是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图8是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图9是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图10是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图11是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图12是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图13是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图14是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图15是根据本申请实施例的另一种可选的虚拟直播方法的流程的示意图；

图16是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图17是根据本申请实施例的另一种可选的虚拟直播方法的示意图；

图18是根据本申请实施例的一种可选的虚拟直播装置的示意图；

图19是根据本申请实施例的一种可选的虚拟直播装置的示意图；

图20是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为方便理解，对名词做出解释：

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行采集、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

云游戏(Cloud gaming)又可称为游戏点播(gaming on demand)，是一种以云计算技术为基础的在线游戏技术。云游戏技术使图形处理与数据运算能力相对有限的轻端设备(thin client)能运行高品质游戏。在云游戏场景下，游戏并不在玩家游戏终端，而是在云端服务器中运行，并由云端服务器将游戏场景渲染为视频音频流，通过网络传输给玩家游戏终端。玩家游戏终端无需拥有强大的图形运算与数据处理能力，仅需拥有基本的流媒体播放能力与获取玩家输入指令并发送给云端服务器的能力即可。

根据本申请实施例的一个方面，提供了一种虚拟直播方法，可选地，作为一种可选的实施方式，上述虚拟直播方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102以及服务器112，该用户设备102上可以但不限于包括显示器104、处理器106及存储器108，该服务器112包括数据库114以及处理引擎116。

具体过程可如下步骤：

步骤S102，用户设备102获取第一视频片段所对应的方位特征1002；

步骤S104-S106，通过网络110将方位特征1002包含的方向位置信息发送至服务器112；

步骤S108，服务器112通过处理引擎从方位特征1002的方向位置信息中渲染出第二视频片段；

步骤S110-S112，通过网络110将渲染完成的第二视频内容发送至用户设备102，用户设备102通过处理器106将第二视频内容显示在显示器108，并将上述方向位置信息存储在存储器104。

除图1示出的示例之外，上述步骤可以由客户端、或服务器独立完成，也可以由客户端和服务器共同完成，如由客户端执行方位特征的识别，方向位置信息的获取等步骤，从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑、车载设备等，本申请并不限制用户设备102的具体实现方式。

可选地，作为一种可选的实施方式，如图2所示，虚拟直播方法包括：

S202，获取第一账号在直播时的第一视频片段，其中，第一视频片段中包含第一账号关联的实物对象所在的视频片段；

S204，对第一视频片段中的视频片段进行图像识别，并基于图像识别的结果得到实物对象的方位特征，其中，方位特征用于表示实物对象的结构元素对应的方向位置信息；

S206，在获取到方位特征对应的指示数据的情况下，将指示数据传输至第二账号的客户端，以使第一账号的客户端播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，指示数据用于指示虚拟对象执行与实物对象同步的操作。

可选地，在本实施例中，上述虚拟直播方法可以但不限于应用在虚拟形象的直播场景中。现有的虚拟形象的直播主要分为固定模型的直播和不固定模型的直播，固定模型的虚拟直播无法反应主播的姿态动作，无法达到较好的主播和观众的交互效果；而非固定模型的虚拟直播使用本地渲染然后传输已经渲染好的视频流至观众端，而直接传输视频流的清晰度和流畅性受限于视频编码和网络带宽，观众端播放的视频容易因为上述限制出现画质模糊，卡顿，延迟的问题，本申请通过将采集到的画面提取为方位特征，将方位特征对应的指示数据进行传输，再由观众端根据接收到的指示数据进行渲染，解决了宽带和解码带来的限制性问题，提高了传输的精简性，降低了时延程度，给用户带来了较为舒适流畅的用户体验，提高了直播显示效率。

可选地，在本实施例中，上述步骤S202中，第一账号可以但不限于为在主播在虚拟直播间所属网站或者APP中登陆的账号，可以但不限于为一个账号或者多个账号；第一视频片段可以但不限于为通过使用第一账号登录的主播使用电脑或者手机等图像或者声音采集设备同步采集到的画面，也可以为主播在主播端预先录制的非实时画面；实物对象可以但不限于主播自身，或者非主播自身，可以但不限于包括：代替直播，友人，合作者，商家等，也可以是物品，动物等具有实体的对象。

可选地，在本实施例中，上述步骤S204中，对第一视频片段中的视频片段进行图像识别可以但不限于利用摄像头采集人物图像并通过深度学习模型提取图像特征点，将特征点转换成对应模型的方位信息的技术。图像识别的结果可以但不限于包含脸部，行为，肢体等姿态特征，方位特征表示实物对象的结构元素对应的方向位置信息，可以但不限于为模型所在的三维空间的坐标和角度的特征，结构元素可以但不限于包括计算眼睛睁开的比例，嘴巴张开的比例，脸的朝向，身体的方位，手型等特征。

可选地，在本实施例中，上述步骤S206中，第二账号可以但不限于在虚拟直播间所属网站或者APP中观看直播的账号，可以包括但不限于在网站或者APP所属服务器完成注册的观看账号，或者，未完成注册的游客观看账号等，第二账号登陆的客户端可以通过网站或者APP中进行观看，并在观看的过程中实现与第一账号所展示的虚拟形象进行互动。第二视频片段可以但不限于为包含一个第一账号或者多个第一账号关联的虚拟对象所在的视频片段；指示数据可以但不限于为对方位特征中的方向，位置等信息进行拆分得到的便于进行网络传输的帧数据，指示虚拟对象执行与实物对象同步的操作，虚拟对象可以但不限于由3D数字模型构建的区别于实物的虚拟人物对象或者虚拟动物对象等，能实现与实体相似的表情，动作和声音等，虚拟对象与实体对象可以但不限于存在直接关系，例如主播真人的漫画形象，还可以与实体对象不存在直接关系，通过主播账号存在间接关系，例如主播随机设置的动物形象等。

需要说明的是，通过图像采集技术实时对第一账号的第一视频内容进行采集和提取得到多个特征对应的图像特征点，再根据图像特征点转化为方位特征，将方位特征对应的指示数据进行传输至第二账号对应的客户端中，由第二账号的客户端进行渲染，最后生成第二视频内容，避免由于宽带，解码等因素的限制，提高了高清视频的传输效率，给用户带来了较流畅舒适的用户体验。

进一步举例说明，可选的例如图3所示，主播A登录第一账号的客户端304开启虚拟形象的直播，摄像头302实时录制主播A直播时的第一视频片段，此时图像识别算法对第一视频片段中的实物对象进行不同结构元素的方向位置信息的采集和提取，提取后的特征为视频片段中的方位特征，将方位特征对应的指示数据传输至观众侧的客户端，如图4所示，观众B登录的第二账号的客户端402中显示与主播对应的虚拟直播对应的直播画面。

可选地，在本实施例中，获取两个或两个以上第一账号的第一视频片段，分别对两个或两个以上的第一视频片段进行图像识别，得到多组方位特征，将多组方位特征对应的指示数据传输至第二账号的客户端，使第二账号的客户端播放指示数据对应的第二视频片段，其中第二视频片段中为在同一场景下两个或两个以上的第一账号关联的虚拟对象的视频片段。克服了主播互动时客户端场景不兼容的问题，提高了虚拟主播进行同一场景下互动的多样性和丰富性。

进一步举例说明，主播A和主播B在进行连麦互动时，分别从各自客户端中获取第一视频片段并进行图像识别，分别将图像识别后得到的方位特征传输至观众端，使观众端可以看到主播A和主播B关联的虚拟对象在同一场景下进行互动的第二视频片段。

需要说明的是，多个主播进行连麦互动时，由于传统技术在主播本地进行虚拟对象的视频渲染，再将渲染好的虚拟对象以视频流的方式传输至各个观众的客户端，所以在观众端呈现的是不同场景下的连麦互动视频，如图5所示，无法实现同一场景下的互动，本申请通过利用图像识别传输方位特征而非视频流，克服了连麦时的场景限制如图6所示，拉近了互动的距离，彻底的实现了主播之间的互动，提高了主播互动的效率。

通过本申请提供的实施例，获取第一账号在直播时的第一视频片段，其中，第一视频片段中包含第一账号关联的实物对象所在的视频片段；对第一视频片段中的视频片段进行图像识别，并基于图像识别的结果得到实物对象的方位特征，其中，方位特征用于表示实物对象的结构元素对应的方向位置信息；在获取到方位特征对应的指示数据的情况下，将指示数据传输至第二账号的客户端，以使第二账号的客户端播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，指示数据用于指示虚拟对象执行与实物对象同步的操作，通过深度学习模型和图像识别技术对实物对象的特征进行识别和提取，将识别后的方位特征对应的指示数据直接传输至观众端，由观众端进行模型渲染，进而摆脱了宽带传输量和客户端计算量的限制，提高了传输过程的精简性，实现了降低传输的数据量，使得无论在宽带传输量较小，还是客户端配置较低端时，仍可以在观众客户端呈现高画质的直播画面，从而实现了受限于视频编码和网络宽带的情况下，既保证了同步直播又提高了用户交互体验的技术效果。

作为一种可选的方案，在将指示数据传输至第二账号的客户端之前，方法还包括：

S1，获取第一视频片段中的各帧视频图像；

S2，从各帧视频图像中确定出重复视频图像，其中，重复视频图像包括图像内容的相似度大于或等于预设阈值的至少两帧视频图像；

S3，将重复视频图像对应的方位特征确定为第一方位特征；

S4，对第一方位特征以及各帧视频图像中除重复视频图像外的其他视频图像对应的第二方位特征进行整合处理，得到指示数据。

可选地，在本实施例中，从各帧视频图像中确定出重复视频图像的手段为通过图像识别算法提取第一视频片段各帧视频图像中的由不同结构元素对应的位置点，比较相邻帧视频图像中的位置点信息，若位置点信息的相似度小于预设阈值，则确定该帧为重复的视频图像，并循环继续判断下一帧的位置点信息，直到出现相似度大于或等于预设阈值的视频图像，跳出循环，将重复视频图像对应的方位特征确定为第一方位特征，除重复视频图像外的其他视频图像对应的方位特征确定为第二方位特征，整合处理第一方位特征和第二方位特征，得到用于进行数据传输的指示数据。

需要说明的是，通过采用相似度判定重复视频图像，并将重复视频图像确定为第一方位特征，将其他方位特征作为第二方位特征，通过对方位特征的整合处理，在传输过程中减少了传输量，减轻了传输负担，提高了传输效率。

进一步举例说明，可选的例如图7所示，主播A登陆第一账号的客户端702开启直播，与观众一起听音乐时，主播A保持不动，检测到主播A的所在的第一视频片段中，连续数帧均为重复视频图像，将重复视频画面的方位特征确定为第一方位特征704，将不重复的方位特征数据确定为第二方位特征706，并对第一方位特征704进行整合处理得到指示数据，将第一帧重复视频对应的指示数据发送至观众的客户端，余下的重复视频可以只简单的发送一个标志位，指示观众客户端沿用上一帧的视频画面。

通过本申请提供的实施例，获取第一视频片段中的各帧视频图像；从各帧视频图像中确定出重复视频图像，其中，重复视频图像包括图像内容的相似度大于或等于预设阈值的至少两帧视频图像；将重复视频图像对应的方位特征确定为第一方位特征；对第一方位特征以及各帧视频图像中除重复视频图像外的其他视频图像对应的第二方位特征进行整合处理，得到指示数据，通过整合重复视频帧的技术手段进而达到了降低了数据传输量，避免重复视频帧占用较多的传输资源的目的，从而实现了提高传输效率，提高传输的精简度的技术效果。

作为一种可选的方案，对第一方位特征以及各帧视频图像中除重复视频图像外的其他视频图像对应的第二方位特征进行整合处理，得到指示数据，包括：

S1，获取目标传输协议的数据传输参数，其中，目标传输协议用于传输指示数据至第一账号的客户端，数据传输参数用于指示通过目标传输协议进行传输时的数据要求；

S2，基于数据传输参数确定单个数据的预设传输量，其中，预设传输量小于或等于数据传输参数指示的单个数据通过目标传输协议进行传输时的上限传输量；

S3，利用预设传输量对第一方位特征以及第二方位特征进行分包处理，得到多个方位特征数据包，其中，方位特征数据包的数据量小于或等于预设传输量。

可选地，在本实施例中，目标传输协议可以但不限于允许两个或多个在传输系统中的终端之间传播信息的系统标准，可以但不限于包括TCP协议，UDP协议，HTTP协议，HTTPS协议等，本实施例中可以采用传输效率较高的UDP协议，UDP协议是一种无连接不可靠的传输层协议，在数据传输上可以做到开销最小，速度更快，效率更高。

可选地，在本实施例中，数据传输参数指网络中能够传输的最大数据包的大小，可以但不限于需要参考接收端所能承受的最大值，信息发送路径上设备所能承受的最大值等因素，预设传输量为预先设定的单个数据通过目标传输协议进行传输时的数据量的大小。

可选地，在本实施例中，分包处理可以但不限于为避免数据传输大小大于预设传输量导致的丢包问题而设计的拆包操作，主要是将整体的数据单元拆解为多个数据包，其中单个数据包的传输量小于等于预设传输量，方位特征数据包为带有方位特征的数据包。

需要说明的是，在传输过程中根据目标传输协议的方式传输数据中，容易受限于最大传输单元的大小限制，当数据包过大时就会在网络传输底层拆包，从而容易形成丢包，例如使用UDP的方式传输数据，此时的方位数据大小超过1.5KB时超过了MTU的大小，容易在传输过程中形成丢包，为了保险起见，本申请实施例将同一图像的方位数据看作一帧，再用1KB对每帧数据进行分包。在传输算法上，通过丢包重传来对UDP包传输做可靠性保证。

可选地，在本实施例中，在传输算法上为避免出现数据包丢失导致的视频卡顿问题可以但不限于添加丢包重传机制，方法为第一账号的客户端在发送数据包时生成一个随机数并启动重传计时器，发送数据包后，若在计时器超时之前收到与随机数对应的特定报文，则撤销计时器，表示发送成功，若在计时器超时前，没有收到该特定报文，则重传该数据包，并把计时器复位。

进一步举例说明，可选的例如图8所示，发送方802在发送数据包时生成一个随机数11并启动定时器，接收方804在接受到随机数11时在预设时间长度内返回随机数11，表示已经传输到接收方804，发送方802在发送另外一个数据包时生成随机数21并开启定时器，接收方804并未接受到随机数21，依然按照上一数据包对应的随机数11返回至发送方802，此时发送方802判断在预设时间长度内没有接受到随机数21对应的数据包的响应，判定超时进行重传，重新发送随机数未21的数据包。

需要说明的是，通过超时重传的方法保证了数据包的准确送达，克服了丢包导致的失帧的问题，结合时间维度保证了数据包传送的可靠性。

通过本申请提供的实施例，获取目标传输协议的数据传输参数，其中，目标传输协议用于传输指示数据至第一账号的客户端，数据传输参数用于指示通过目标传输协议进行传输时的数据要求；基于数据传输参数确定单个数据的预设传输量，其中，预设传输量小于或等于数据传输参数指示的单个数据通过目标传输协议进行传输时的上限传输量；利用预设传输量对第一方位特征以及第二方位特征进行分包处理，得到多个方位特征数据包，其中，方位特征数据包的数据量小于或等于预设传输量，通过协议分包和超时重传进而避免了数据包丢失导致的视频播放流畅性较低的目的，从而实现了提高了数据包传输的可靠性的技术效果。

作为一种可选的方案，对第一视频片段进行图像识别，并基于图像识别的结果得到实物对象的方位特征，包括：

S1，对第一视频片段进行图像识别，得到多个姿态特征点，其中，姿态特征点为实物对象中的各个结构元素对应的位置点；

S2，基于多个姿态特征点获取方位特征。

可选地，在本实施例中，姿态特征点可以但不限于为实物对象中的各个结构元素对应的位置点，可以但不限于包括脸部、手部，姿态等元素中提取的姿态特征点。

进一步举例说明，可选的例如图9所示，图像识别实时采集主播A的姿态特征生成第一视频内容902，根据第一视频内容提取姿态特征点904，采集到32个姿态特征点。

通过本申请提供的实施例，对第一视频片段进行图像识别，得到多个姿态特征点，其中，姿态特征点为实物对象中的各个结构元素对应的位置点；基于多个姿态特征点获取方位特征，进而达到了根据第一视频内容识别出多个关键部位的姿态特征点的目的，从而实现了将视频内容转为数据点的形式提高了虚拟主播的形象隐私性的技术效果。

作为一种可选的方案，基于多个姿态特征点获取方位特征，包括：

S1，基于目标结构元素对应的姿态特征点，获取目标结构元素的方向信息、以及目标结构元素在目标区域内的位置信息，其中，实物对象的结构元素包括目标结构元素，目标区域为目标结构元素所属的元素类型下的结构元素在实物对象上的预设区域；

S2，根据方向信息以及位置信息确定目标结构元素对应的方位特征。

可选地，在本实施例中，目标结构元素为实物对象上的各个部位的关键特征对应的元素，可以但不限于包括眼睛、嘴巴、手指等等，目标区域可以但不限于包括头部，身体，手部等关键部位，方位信息可以但不限于包括目标结构元素的朝向信息，例如眼球向左转，嘴巴张开闭合，手指指向后方等。

需要说明的是，通过获取目标结构元素的方向信息和位置信息相结合的方式确定目标结构元素对应的方位特征，以提高方位特征提取的准确性，真实性的有益效果。

进一步举例说明，可选的例如图10所示，摄像机采集图像时携带摄像机坐标系，通过人脸探测器1002与人脸提取器1004的结合进入采集模式，或者直接通过人脸提取器1004进入采集模式，在端到端模型1006(24×24×32)中，采取眼睛、网格、嘴唇等作为模型中的特征，最后输出已经采集特征后的人物形象。

进一步举例说明，可选的例如图11所示，是一个手部地标模型的架构，该模型有三个输出，分别为由x、y和相对深度组成的21个标志点1102；指示在输入图像中出现手的概率1104；用手习惯的一种二元分类1106，如左或者右，此外该模型共享一个特征提取器1108，并将真实图像，合成图像，可见的手，用手习惯的分类作为该模型的输入。

进一步举例说明，可选的例如图12所示，是一个堆叠基于热图的微型编码器-解码器网络和随后的回归编码器网络。由33个关键点的位置进行预测，采用热图和偏移1202和回归相结合的方法，本申请在训练阶段使用热图和补偿损失，通过输入RGB图像，并在运行推断之前从模型中删除响应的输出层，得到用于表现要点和能见度的输出结果1204。本申请实施例利用热图来监督轻量级嵌入，然后利用回归编码器网络，其中，该实施例过程还涉及到跳过连接(Skip connection)、停止梯度连接(Stop gradient connection)，具体可参考图12所示的连接内容。

通过本申请提供的实施例，基于目标结构元素对应的姿态特征点，获取目标结构元素的方向信息、以及目标结构元素在目标区域内的位置信息，其中，实物对象的结构元素包括目标结构元素，目标区域为目标结构元素所属的元素类型下的结构元素在实物对象上的预设区域；根据方向信息以及位置信息确定目标结构元素对应的方位特征，进而达到了将图像转为不同关键部位对应的数据点的目的，从而实现了降低数据传输量，提高传输效率的技术效果。

作为一种可选的方案，对第一视频片段进行图像识别，得到多个姿态特征点，包括以下至少之一：

S1，对第一视频片段进行第一图像识别，得到脸部姿态特征点；

S2，对第一视频片段进行第二图像识别，得到行为姿态特征点；

S3，对第一视频片段进行第三图像识别，得到肢体姿态特征点。

可选地，在本实施例中，脸部姿态特征点可以但不限于为图像识别到的脸部姿态中的对应的点，可以但不限于包括眼球，嘴唇等姿态特征点，行为姿态特征点可以但不限于为图像识别到的行为动作对应的点，肢体姿态特征点可以但不限于为图像识别到的肢体对应的点，可以但不限于包括手臂、腿部等肢体特征点。

通过本申请提供的实施例，对第一视频片段进行第一图像识别，得到脸部姿态特征点；对第一视频片段进行第二图像识别，得到行为姿态特征点；对第一视频片段进行第三图像识别，得到肢体姿态特征点，进而达到了多维度结合姿态特征点的目的，从而实现了提高转换为方位特征的效率的技术效果。

作为一种可选的方案，对第一视频片段进行图像识别，得到多个姿态特征点，包括：

S1，对第一视频片段进行图像识别，得到初始姿态特征点；

S2，在初始姿态特征点未达到指示条件的情况下，对第一视频片段进行音频识别，得到音频特征；

S3，结合初始姿态特征点以及音频特征，得到姿态特征点。

可选地，在本实施例中，通过音频识别实现将音频识别和图像识别达到当未识别到或者画面长时间处于静止状态时，使用音频视频结合的手段补全姿态特征点。

可选地，在本实施例中，初始姿态特征点为对第一视频片段进行初次图像识别获取到的姿态特征点，指示条件为判断音频特征与视频特征是否同步的条件，例如在检测到主播正在说话时，判断主播的初始姿态特征中的嘴部特征是否有开合动作，例如检测到主播正在发出笑声时，判断主播的初始姿态特征中的脸部特征是否有表达笑容的表情动作。

进一步举例说明，可选的例如图13所示，主播A在与观众进行交流时，采集主播A的音频特征，判断主播A所在的第一视频片段对应的初始姿态特征点中，嘴部姿态是否有开合的变化，若未检测到嘴部姿态有变动，则修改初始姿态特征点的嘴部姿态，做到姿态特征点与音频特征同步，将修改后的姿态特征对应的指示数据传输至观众客户端，生成带有嘴部动作的第二视频片段；

例如图14所示，主播在与观众互动时发出笑声，而此时图像识别技术并没有识别出主播A的嘴部特征，则修改初始姿态特征点的嘴部姿态特征点，做到姿态特征点与音频特征同步，将带有笑容的嘴部姿态特征点对应的只是数据传输至观众客户端，生成带有笑容动作的第二视频片段。

需要说明的是，考虑到摄像头实时录制具有不稳定性，或者在进行特征提取时，会产生遗漏特征点的问题，本申请通过音频特征与视频特征相结合的技术手段，对初始姿态特征点进行二次处理，以实现姿态特征点与音频特征同步，提高了第二视频片段的流畅性和真实性，拉近了主播与用户之间的距离，提高了虚拟直播交互效率。

通过本申请提供的实施例，对第一视频片段进行图像识别，得到初始姿态特征点；在初始姿态特征点未达到指示条件的情况下，对第一视频片段进行音频识别，得到音频特征；结合初始姿态特征点以及音频特征，得到姿态特征点，进而达到了通过音频特征与视频特征的结合实现了提高画面显示的真实性和准确性的目的，从而实现了提高虚拟直播交互效率的技术效果。

作为一种可选的方案，将指示数据传输至第二账号的客户端，包括：

将指示数据以及第一视频片段对应的音频数据传输至第二账号的客户端，以使第一账号的客户端播放指示数据对应的画面、以及同步播放音频数据对应的音频。

可选地，在本实施例中，在指示数据中添加音频数据和第一视频片段之间的对应关系，可以但不限于以数字标志位的形式做同步标记，第二账号的客户端播放时，根据指示数据中的对应标记同步播放视频与音频数据。

通过本申请提供的实施例，将指示数据以及第一视频片段对应的音频数据传输至第二账号的客户端，以使第一账号的客户端播放指示数据对应的画面、以及同步播放音频数据对应的音频，通过添加数字标志位实现了将音频数据和视频片段同步播放，提高了视频播放的流畅性和完整性。

可选地，作为一种可选的实施方式，如图15所示，虚拟直播方法包括：

S1502，接收第一账号的客户端传播的、方位特征对应的指示数据，其中，方位特征用于表示第一账号关联的实物对象的结构元素对应的方向位置信息，第一客户端在直播时的第一视频片段中包含实物对象所在的视频片段，方位特征为对第一视频片段中的视频片段进行图像识别、并基于图像识别的结果得到的、实物对象的特征；

S1504，播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，指示数据用于指示虚拟对象执行与实物对象同步的操作。

具体实施例可以参考上述虚拟直播方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，在播放指示数据对应的第二视频片段之前，方法还包括：

S1，获取指示数据对应的初始视频片段；

S2，在初始视频片段的第一视频内容未达到播放条件的情况下，基于第一视频内容生成第二视频内容；

S3，结合第一视频内容与第二视频内容，得到目标视频内容；

S4，对目标视频内容进行渲染，得到第二视频片段。

可选地，在本实施例中，初始视频片段可以但不限于由通过服务端传输后的指示数据组成，也可以直接由第一账号的客户端或者其他路径传输得到的指示数据组成，播放条件可以但不限于包括判定是否已进行渲染，或则其他条件。

可选地，在本实施例中，获取指示数据对应的初始视频片段，并创建缓存区间进行保存，在缓存区间中，对初始视频片段中的第一视频内容进行处理，循环采集第一视频中的方向位置信息，对连续两帧的方向位置信息求取线性均值得到介于连续两帧中间值的视频片段，保存至第二视频内容中，最终生成第二视频内容，结合第一视频内容和第二视频内容得到目标视频内容并进行渲染，得到第二视频片段。

需要说明的是，通过将指示数据对应的初始片段放置在创建的缓存区间进行保存，再使用插帧的手段进行处理，最后渲染生成第二视频片段的技术手段提高了模型渲染的流畅度。

通过本申请提供的实施例，获取指示数据对应的初始视频片段；在初始视频片段的第一视频内容未达到播放条件的情况下，基于第一视频内容生成第二视频内容；结合第一视频内容与第二视频内容，得到目标视频内容；对目标视频内容进行渲染，得到第二视频片段，进而达到了即便推理帧率不高，但是渲染帧率依然可以很流畅的目的，从而实现了提高了渲染模型的流畅度的技术效果。

作为一种可选的方案，结合第一视频内容与第二视频内容，得到目标视频内容，包括：

S1，在初始视频片段包括至少两个连续的视频帧的情况下，将第二视频内容插入至少两个连续的视频帧中间，得到至少三个连续的视频帧，其中，至少三个连续的视频帧包括至少两个连续的视频帧、以及第二视频内容；

S2，将至少三个连续的视频帧的视频内容作为目标视频内容。

可选地，在本实施例中，在第二账号登录的客户端接受到初始视频片段后，对初始视频片段中的视频帧进行循环判断，若检测到连续两帧的方向位置信息差值大于预设阈值，使用线性插值的方法，将连续两帧的方向位置信息的中间值作为视频内容，插入视频内容中间，得到三个连续的视频帧。

需要说明的是，本申请使用帧间数据插值的方式来补齐因为传输帧率和渲染帧率不一致的问题，通过插值之后，渲染帧率可以达到30帧以上，而主播方采集和推理只需要15帧左右就可以，从而即便在较低端的机器上直播，观众方也可以有流畅的观看体验。同时，因为传输帧率不用太高可以进一步降低传输的数据量，从而节省流量。

可选地，本实施例中可以但不限于通过两次阈值判断决定不同情况下使用增加视频帧或者修改视频帧的方法以减少第二视频的卡顿。

进一步举例说明，如图16所示，创建长度为4的滑动窗口1602，对初始视频片段中的视频帧进行循环判断，首先进行S1602一次阈值判断，判断滑动窗口1602中的第二帧与第三帧方向位置信息的差值是否大于预设阈值，若大于预设阈值，说明视频帧容易出现不连贯的问题导致视频内容不够流畅，再进行S1604二次阈值判断，判断第一帧和第二帧、第三帧与第四帧的方向位置信息是否小于等于预设阈值，若两者小于预设阈值，则说明只有中间帧出现异常，使用线性插值的方法在第二帧与第三帧中间插入视频帧，得到连续且流畅的视频内容；在第二次阈值判断时，若两者大于预设阈值，则说明滑动窗口1602中至少两帧出现异常，进而对第一帧和第四帧做线性判断，估算第二帧和第三帧的合理位置并做修改，得到连续且流畅的视频内容。

需要说明的是，考虑到丢帧问题具有多变性，于是通过预设滑动窗口，对视频帧进行二次阈值循环判断，从而将增加视频帧的方法和修改视频帧的方法相结合，进一步提高了视频渲染的平滑性和完整性。

通过本申请提供的实施例在初始视频片段包括至少两个连续的视频帧的情况下，将第二视频内容插入至少两个连续的视频帧中间，得到至少三个连续的视频帧，其中，至少三个连续的视频帧包括至少两个连续的视频帧、以及第二视频内容；将至少三个连续的视频帧的视频内容作为目标视频内容，进而达到了将增加视频帧和修改视频帧的技术手段结合的目的，从而实现了提高了渲染模型的平滑性和完整性的技术效果。

作为一种可选的方案，将虚拟直播方法应用在具体的虚拟直播场景下：

如图17所示，将上述虚拟直播方法的执行主体分为主播端1702，服务端1704，观看端1706三个部分：主播方利用摄像头采集人物图像，然后通过使用深度学习模型提取人物图像姿态特征点，将特征点转换成对应模型人物的身体方位信息。然后将方位信息帧分包发送给服务器。服务器负责给在房间内的用户转发方位信息帧。接收端在收到方位信息之后重新组帧，驱动渲染模块渲染人物模型。

此外，在虚拟直播中光模型动作数据还不够，另外也会实时传输语音数据，以达到声音图像都有的效果。

首先进行特征提取：

在采集端本申请实施例使用了全面(Holistic)特征提取方案。Holistic是由三个特征提取方案的组合，它们分别是Facemesh(用于提取脸部关键点)，Pose(用于提取姿态关键点)，Hands(用于提取手部关键点)。原始方案提取的关键点数据过多，比如脸部有468个关键点，可以用于采集很细腻的表情，手部有21个，姿态有32个关键点。这里根据本申请实施例实际驱动模型的需要，本申请实施例用了手部的21个(左右手加起来一共有42个)，姿态去掉足部的6个一共42个。而脸部的部分精简最多，本申请实施例只计算眼睛，嘴巴，脸的方位。

其次对人物模型数据与方位数据转换：主要以头部，身体，手型三类进行特征提取。

头部包括：眼睛(左右眼数据结构一致)：计算眼睛的朝向，睁开的比例，眼珠的方位，是否皱眉毛；嘴巴：嘴巴张开的比例，嘴巴的朝向；脸：脸的朝向。

身体包括：脊柱：脊柱的方位坐标；臀部：臀部方位坐标；手臂：上臂和前臂的方位坐标；腿部：大腿和小腿的方位坐标。

手型包括(左右手)：五个手指加上手掌的方位坐标，每个手指分为三个关节，每个关节的方位坐标。

接下来进行方位数据组帧传输：

因为本申请实施例是用基于用户数据报协议(User Datagram Protocol，简称UDP)的方式传输数据的，而UDP包大小最好是不要过大，否则受限于最大传输单元(MaximumTransmission Unit，简称MTU)的大小，UDP包过大的话就会在网络传输底层拆包，从而容易形成丢包。这里方位数据大小超过了1.5KB，为了保险起见，本申请实施例将同一图像的方位数据看作一帧，再用1KB对每帧数据进行分包。在传输算法上，通过丢包重传来对UDP包传输做可靠性保证。

接收方设定一个组帧缓存区，当一帧接收完整之后，将调用渲染模块的插值算法根据前后帧的数据生成插值帧数据以更新模型人物的状态。

最后在接收端进行人物模型渲染：

本地模型使用基于glTF格式的可变距离刻度(vrm)数字人物模型。在渲染端加载模型之后，首先根据默认数据渲染出模型的初始姿态。之后每次收到传输层给过来的数据，通过线性插值的方式，补充前后两帧之间的数据，以便于提高模型的渲染帧率，使的其看上去动作比较自然，流畅。

通过本申请提供的实施例，虚拟直播将模型人物通过审核之后存放在服务器上面，可以有效规避直播中的许多不良行为，同时，模型人物又有很大的可定制性的特点。可以实现一种虚拟直播的功能，其具有低延迟，交互性好，并且流量耗费小的特点。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述虚拟直播方法的虚拟直播装置。如图18所示，该装置包括：

第一获取单元1802，用于获取第一账号在直播时的第一视频片段，其中，第一视频片段中包含第一账号关联的实物对象所在的视频片段；

第一识别单元1804，用于对第一视频片段中的视频片段进行图像识别，并基于图像识别的结果得到实物对象的方位特征，其中，方位特征用于表示实物对象的结构元素对应的方向位置信息；

第一传输单元1806，用于在获取到方位特征对应的指示数据的情况下，将指示数据传输至第二账号的客户端，以使第二账号的客户端播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，指示数据用于指示虚拟对象执行与实物对象同步的操作。

具体实施例可以参考上述虚拟直播装置中所示示例，本示例中在此不再赘述。

作为一种可选的方案，上述第一传输单元，在将指示数据传输至第二账号的客户端之前，装置还包括：

S1，第二获取单元，用于获取第一视频片段中的各帧视频图像；第一确定单元，用于从各帧视频图像中确定出重复视频图像，其中，重复视频图像包括图像内容的相似度大于或等于预设阈值的至少两帧视频图像；

S2，第二确定单元，用于将重复视频图像对应的方位特征确定为第一方位特征；第一处理单元，用于对第一方位特征以及各帧视频图像中除重复视频图像外的其他视频图像对应的第二方位特征进行整合处理，得到指示数据。

作为一种可选的方案，上述第一处理单元，包括：

S1，第一获取模块，用于获取目标传输协议的数据传输参数，其中，目标传输协议用于传输指示数据至第一账号的客户端，数据传输参数用于指示通过目标传输协议进行传输时的数据要求；

S2，第一确定模块，用于基于数据传输参数确定单个数据的预设传输量，其中，预设传输量小于或等于数据传输参数指示的单个数据通过目标传输协议进行传输时的上限传输量；

S3，第一处理模块，用于利用预设传输量对第一方位特征以及第二方位特征进行分包处理，得到多个方位特征数据包，其中，方位特征数据包的数据量小于或等于预设传输量。

作为一种可选的方案，上述第一识别单元，包括：第一识别模块，用于对第一视频片段进行图像识别，得到多个姿态特征点，其中，姿态特征点为实物对象中的各个结构元素对应的位置点；第二获取模块，用于基于多个姿态特征点获取方位特征。

作为一种可选的方案，上述第二获取模块，包括：

S1，第一获取子模块，用于基于目标结构元素对应的姿态特征点，获取目标结构元素的方向信息、以及目标结构元素在目标区域内的位置信息，其中，实物对象的结构元素包括目标结构元素，目标区域为目标结构元素所属的元素类型下的结构元素在实物对象上的预设区域；

S2，第一确定子模块，用于根据方向信息以及位置信息确定目标结构元素对应的方位特征。

作为一种可选的方案，上述第一识别模块，包括以下至少之一：

S1，第一识别子模块，用于对第一视频片段进行第一图像识别，得到脸部姿态特征点；

S2，第二识别子模块，用于对第一视频片段进行第二图像识别，得到行为姿态特征点；

S3，第三识别子模块，用于对第一视频片段进行第三图像识别，得到肢体姿态特征点。

作为一种可选的方案，上述第一识别模块，包括：第四识别子模块，用于对第一视频片段进行图像识别，得到初始姿态特征点；第五识别子模块，用于在初始姿态特征点未达到指示条件的情况下，对第一视频片段进行音频识别，得到音频特征；第一结合子模块，用于结合初始姿态特征点以及音频特征，得到姿态特征点。

作为一种可选的方案，上述第一传输单元，包括：第一传输模块，用于将指示数据以及第一视频片段对应的音频数据传输至第二账号的客户端，以使第一账号的客户端播放指示数据对应的画面、以及同步播放音频数据对应的音频。

S1，接收第一账号的客户端传播的、方位特征对应的指示数据，其中，方位特征用于表示第一账号关联的实物对象的结构元素对应的方向位置信息，第一客户端在直播时的第一视频片段中包含实物对象所在的视频片段，方位特征为对第一视频片段中的视频片段进行图像识别、并基于图像识别的结果得到的、实物对象的特征；

S2，播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，指示数据用于指示虚拟对象执行与实物对象同步的操作。

根据本申请实施例的另一方面，还提供了一种虚拟直播装置，如图19所示包括：

1902，第一接收单元，用于接收第一账号的客户端传播的、方位特征对应的指示数据，其中，方位特征用于表示第一账号关联的实物对象的结构元素对应的方向位置信息，第一客户端在直播时的第一视频片段中包含实物对象所在的视频片段，方位特征为对第一视频片段中的视频片段进行图像识别、并基于图像识别的结果得到的、实物对象的特征；

1904，第一播放单元，用于播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，指示数据用于指示虚拟对象执行与实物对象同步的操作。

作为一种可选的方案，上述第一播放单元，在播放指示数据对应的第二视频片段之前，方法还包括：

S1，第三获取单元，用于获取指示数据对应的初始视频片段；第一生成单元，用于在初始视频片段的第一视频内容未达到播放条件的情况下，基于第一视频内容生成第二视频内容；

S2，第一结合单元，用于结合第一视频内容与第二视频内容，得到目标视频内容；

S3，第一渲染单元，用于对目标视频内容进行渲染，得到第二视频片段。

作为一种可选的方案，上述第一结合单元，包括：第一插入模块，用于在初始视频片段包括至少两个连续的视频帧的情况下，将第二视频内容插入至少两个连续的视频帧中间，得到至少三个连续的视频帧，其中，至少三个连续的视频帧包括至少两个连续的视频帧、以及第二视频内容；第二确定模块，用于将至少三个连续的视频帧的视频内容作为目标视频内容。

根据本申请实施例的又一个方面，还提供了一种用于实施上述虚拟直播方法的电子设备，如图20所示，该电子设备包括存储器2002和处理器2004，该存储器2002中存储有计算机程序，该处理器2004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取第一账号在直播时的第一视频片段，其中，第一视频片段中包含第一账号关联的实物对象所在的视频片段；

S2，对第一视频片段中的视频片段进行图像识别，并基于图像识别的结果得到实物对象的方位特征，其中，方位特征用于表示实物对象的结构元素对应的方向位置信息；

S3，在获取到方位特征对应的指示数据的情况下，将指示数据传输至第二账号的客户端，以使第一账号的客户端播放指示数据对应的第二视频片段，其中，第二视频片段中包含第一账号关联的虚拟对象所在的视频片段，指示数据用于指示虚拟对象执行与实物对象同步的操作。

可选地，本领域普通技术人员可以理解，图20所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图20其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图20中所示更多或者更少的组件(如网络接口等)，或者具有与图20所示不同的配置。

其中，存储器2002可用于存储软件程序以及模块，如本申请实施例中的虚拟直播方法和装置对应的程序指令/模块，处理器2004通过运行存储在存储器2002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的虚拟直播方法。存储器2002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器2002可进一步包括相对于处理器2004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器2002具体可以但不限于用于存储第一视频内容、第二视频内容、方位特征等信息。作为一种示例，如图20所示，上述存储器2002中可以但不限于包括上述虚拟直播装置中的第一获取单元1802、第一识别单元1804、第一传输单元1806。此外，还可以包括但不限于上述虚拟直播装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置2006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置2006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置2006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器2008，用于显示上述第一视频内容以及第二视频内容等信息；和连接总线2010，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(Peer To Peer，简称P2P)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

计算机系统包括中央处理器(Central Processing Unit，CPU)，其可以根据存储在只读存储器(Read-Only Memory，ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口(Input/Output接口，即I/O接口)也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种虚拟直播方法，其特征在于，包括：

获取第一账号在直播时的第一视频片段，其中，所述第一视频片段中包含所述第一账号关联的实物对象所在的视频片段；

对所述第一视频片段中的视频片段进行图像识别，并基于所述图像识别的结果得到所述实物对象的方位特征，其中，所述方位特征用于表示所述实物对象的结构元素对应的方向位置信息；

在获取到所述方位特征对应的指示数据的情况下，将所述指示数据传输至第二账号的客户端，以使所述第二账号的客户端播放所述指示数据对应的第二视频片段，其中，所述第二视频片段中包含所述第一账号关联的虚拟对象所在的视频片段，所述指示数据用于指示所述虚拟对象执行与所述实物对象同步的操作。

2.根据权利要求1所述的方法，其特征在于，在所述将所述指示数据传输至第二账号的客户端之前，所述方法还包括：

获取所述第一视频片段中的各帧视频图像；

从所述各帧视频图像中确定出重复视频图像，其中，所述重复视频图像包括图像内容的相似度大于或等于预设阈值的至少两帧视频图像；

将所述重复视频图像对应的方位特征确定为第一方位特征；

对所述第一方位特征以及所述各帧视频图像中除所述重复视频图像外的其他视频图像对应的第二方位特征进行整合处理，得到所述指示数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一方位特征以及所述各帧视频图像中除所述重复视频图像外的其他视频图像对应的第二方位特征进行整合处理，得到所述指示数据，包括：

获取目标传输协议的数据传输参数，其中，所述目标传输协议用于传输所述指示数据至所述第一账号的客户端，所述数据传输参数用于指示通过所述目标传输协议进行传输时的数据要求；

基于所述数据传输参数确定单个数据的预设传输量，其中，所述预设传输量小于或等于所述数据传输参数指示的所述单个数据通过所述目标传输协议进行传输时的上限传输量；

利用所述预设传输量对所述第一方位特征以及所述第二方位特征进行分包处理，得到多个方位特征数据包，其中，所述方位特征数据包的数据量小于或等于所述预设传输量。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一视频片段进行图像识别，并基于所述图像识别的结果得到所述实物对象的方位特征，包括：

对所述第一视频片段进行图像识别，得到多个姿态特征点，其中，所述姿态特征点为所述实物对象中的各个结构元素对应的位置点；

基于所述多个姿态特征点获取所述方位特征。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个姿态特征点获取所述方位特征，包括：

基于目标结构元素对应的姿态特征点，获取所述目标结构元素的方向信息、以及所述目标结构元素在目标区域内的位置信息，其中，所述实物对象的结构元素包括所述目标结构元素，所述目标区域为所述目标结构元素所属的元素类型下的结构元素在所述实物对象上的预设区域；

根据所述方向信息以及所述位置信息确定所述目标结构元素对应的方位特征。

6.根据权利要求4所述的方法，其特征在于，所述对所述第一视频片段进行图像识别，得到多个姿态特征点，包括以下至少之一：

对所述第一视频片段进行第一图像识别，得到脸部姿态特征点；

对所述第一视频片段进行第二图像识别，得到行为姿态特征点；对所述第一视频片段进行第三图像识别，得到肢体姿态特征点。

7.根据权利要求4所述的方法，其特征在于，所述对所述第一视频片段进行图像识别，得到多个姿态特征点，包括：

对所述第一视频片段进行所述图像识别，得到初始姿态特征点；在所述初始姿态特征点未达到指示条件的情况下，对所述第一视频片段进行音频识别，得到音频特征；

结合所述初始姿态特征点以及所述音频特征，得到所述姿态特征点。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述将所述指示数据传输至第二账号的客户端，包括：

将所述指示数据以及所述第一视频片段对应的音频数据传输至第二账号的客户端，以使所述第一账号的客户端播放所述指示数据对应的画面、以及同步播放所述音频数据对应的音频。

9.一种虚拟直播方法，其特征在于，包括：

接收第一账号的客户端传播的、方位特征对应的指示数据，其中，所述方位特征用于表示所述第一账号关联的实物对象的结构元素对应的方向位置信息，所述第一客户端在直播时的第一视频片段中包含所述实物对象所在的视频片段，所述方位特征为对所述第一视频片段中的视频片段进行图像识别、并基于所述图像识别的结果得到的、所述实物对象的特征；

播放所述指示数据对应的第二视频片段，其中，所述第二视频片段中包含所述第一账号关联的虚拟对象所在的视频片段，所述指示数据用于指示所述虚拟对象执行与所述实物对象同步的操作。

10.根据权利要求9所述的方法，其特征在于，在所述播放所述指示数据对应的第二视频片段之前，所述方法还包括：

获取所述指示数据对应的初始视频片段；

在所述初始视频片段的第一视频内容未达到播放条件的情况下，基于所述第一视频内容生成第二视频内容；

结合所述第一视频内容与所述第二视频内容，得到目标视频内容；对所述目标视频内容进行渲染，得到所述第二视频片段。

11.根据权利要求10所述的方法，其特征在于，所述结合所述第一视频内容与所述第二视频内容，得到目标视频内容，包括：

在所述初始视频片段包括至少两个连续的视频帧的情况下，将所述第二视频内容插入所述至少两个连续的视频帧中间，得到至少三个连续的视频帧，其中，所述至少三个连续的视频帧包括所述至少两个连续的视频帧、以及所述第二视频内容；

将所述至少三个连续的视频帧的视频内容作为所述目标视频内容。

12.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至8、或9至11任一项中所述的方法。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至8、或9至11任一项中所述方法的步骤。

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8、或9至11任一项中所述的方法。