CN116055758A

CN116055758A - 直播、视频会议、视频数据处理方法和电子设备

Info

Publication number: CN116055758A
Application number: CN202310036478.9A
Authority: CN
Inventors: 王晨吉; 张志鹏
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-05-02

Abstract

本申请提供了一种直播、视频会议、视频数据处理方法、设备和存储介质，据本申请实施例，实现更加方便、高效地使用虚拟技术。其中，直播数据处理方法包括：在直播主播端通过直播服务器端创建直播间的情况下，获取直播主播端实时拍摄的第一视频数据；根据所述第一视频数据所包括的第一图像帧，获取直播主播对应于多个预设动作的多个第一动作幅度信息；根据所述第一动作幅度信息，生成所述直播主播的动作捕捉数据；根据所述直播主播的动作捕捉数据，生成第二图像帧；所述第二图像帧包括所述直播主体对应的虚拟主体；根据所述第二图像帧，生成所述虚拟主体的第二视频数据，并将所述第二视频数据通过所述直播服务器端向加入直播间的直播观众端发送。

Description

直播、视频会议、视频数据处理方法和电子设备

技术领域

本申请涉及图像和视频处理技术领域，尤其涉及一种直播、视频会议、视频数据处理方法和电子设备。

背景技术

随着计算机技术的发展，计算机数据所能够实现的功能也越来越多，计算机数据传输的实时性显著提高。用户可以随时随地利用网络，发送和接收文字、图片、音频和视频数据。用户在网络上的活动种类也越来越多，例如可以参与网络直播和视频会议。一般情况下，直播主播在直播间内，可以对商品进行解说和销售，在此过程中，直播主播若出现在直播镜头中，则会以自己真人面目向直播观众展示。直播的灵活性、娱乐性受到限制。

发明内容

本申请实施例提供一种直播、视频会议、视频数据处理方法和电子设备，以提高直播等网络活动的灵活性和娱乐性。

第一方面，本申请实施例提供了一种直播数据处理方法，包括：在直播主播端通过直播服务器端创建直播间的情况下，获取直播主播端实时拍摄的第一视频数据；根据第一视频数据所包括的第一图像帧，获取直播主播对应于多个预设动作的多个第一动作幅度信息；根据第一动作幅度信息，生成直播主播的动作捕捉数据；根据直播主播的动作捕捉数据，生成第二图像帧；第二图像帧包括直播主体对应的虚拟主体；根据第二图像帧，生成虚拟主体的第二视频数据，并将第二视频数据通过直播服务器端向加入直播间的直播观众端发送。

第二方面，本申请实施例提供了一种视频会议数据处理方法，包括：根据用户终端加入视频会议的信息，通过用户终端的摄像头拍摄参会用户参与视频会议的第三视频数据；根据第三视频数据所包括的第三图像帧，获取参会用户对应于多个预设动作的多个第三动作幅度信息；根据第三动作幅度信息，生成参会用户的动作捕捉数据；根据参会用户的动作捕捉数据，生成第四图像帧；第四图像帧包括参会用户对应的虚拟主体；根据第四图像帧，生成虚拟主体的第四视频数据，并将第四视频数据向加入视频会议的其他终端发送。

第三方面，本申请实施例提供了一种视频数据处理方法，包括：获取实时拍摄的第五视频数据；根据第五视频数据所包括的第五图像帧，获取目标对象对应于多个预设动作的多个第五动作幅度信息；根据第五动作幅度信息，生成目标对象的动作捕捉数据；根据目标对象的动作捕捉数据，生成第六图像帧；第六图像帧包括目标对象对应的虚拟主体；根据第六图像帧，生成虚拟主体的第六视频数据，并将第六视频数据向加入视频会议的其他终端发送。

第四方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，处理器在执行计算机程序时实现上述任一项的方法。

与现有技术相比，本申请具有如下优点：

在开启直播间的情况下，可通过主播端对应的终端，对直播主播实时拍摄第一视频数据，根据第一视频数据，获取直播主播的动作捕捉数据，根据动作捕捉数据，生成与直播主播对应的虚拟主体的第二视频数据，从而，无需展示直播主播本人，就能够实现直播主播与直播观众的互动，提高直播活动的灵活性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请的一些实施方式，而不应将其视为是对本申请范围的限制。

图1A-1D为本申请提供的方法的应用场景示意图；

图2为本申请一实施例的直播数据处理方法的流程示意图；

图3A-3D是本申请一示例的视频数据处理方法流程示意图；

图4是本申请一示例的目标对象的位置信息获取示意图图；

图5是本申请一实施例的直播数据处理装置的结构框图；以及

图6为用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的构思或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的，而非限制性的。

为便于理解本申请实施例的技术方案，以下对本申请实施例的相关技术进行说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。

图1A、图1B、图1C和图1D为示例性的用于实现本申请实施例的方法的应用场景的示意图。如图1A所示，本申请实施例的视频数据处理方法可以应用于具有摄像装置101的计算机设备端102。摄像装置101可以包括单目摄像头、双目摄像头、数字摄像头和模拟摄像头等多种具有图像或视频获取功能的摄像头。计算机设备端102可以是手机、笔记本电脑、平板电脑、台式电脑、智能可穿戴设备、车载终端、服务器、专用计算机和掌上电脑等具有视频数据处理功能的计算机设备。摄像装置101可以对真实世界中的至少一个目标对象所实际发生的运动、动作或者其他变化事件进行拍摄，得到视频数据，通过对视频数据进行分析，得到分析结果将分析结果作为对目标对象进行捕捉的捕捉数据。捕捉数据中包含目标对象运动或动作的行为特征信息，比如目标对象为矩形旗帜，捕捉数据包括旗帜的四个角随风移动的信息。再如目标对象为车辆，捕捉数据包括车辆行驶的信息。

本申请实施例的视频会议数据处理方法可以应用于图1B所示的多端交互场景。其中，多端可以包括多个用户端，如移动终端103、台式电脑端104、笔记本电脑端105和掌上电脑端106，其中每个用户端对应至少一个用户107。各用户端对应的用户107，可通过其所控制的用户端进入移动终端103、台式电脑端104、笔记本电脑端105和掌上电脑端106所共同参与的虚拟场景或虚实结合场景(图1B中部圆圈表示)，比如虚拟会议场景或游戏场景等。各用户端通过与用户端连接的摄像装置对对应的用户107参与会议的视频数据进行拍摄，根据拍摄的视频数据做出分析，获得各用户端对应的用户107或者其他目标物体的捕捉数据，将捕捉数据添加至虚拟场景或虚实结合场景中。比如，通过移动终端103的附属摄像头获取移动终端103对应的用户107的视频数据，根据视频数据，构建该用户107的虚拟形象，在所参与的虚拟场景或虚实结合场景中，添加该用户107的虚拟形象，而在虚拟场景或虚实结合场景中也存在其他用户端采集各自对应的用户107的视频数据，根据视频数据添加的各自的虚拟形象。使得各用户107通过用户端和其他用户在虚拟场景或虚实结合场景中进行会议互动。

在另一种实现方式中，本申请实施例的视频数据处理方法可应用于图1C所示的应用场景，其中包括用户端108和服务器端109。其中，用户端108可包括多个，用户端108可通过连接的摄像装置拍摄关于目标物体的视频数据，将视频数据发送到服务器端109，由服务器端109对视频数据进行分析，获取视频数据中的目标物体的捕捉数据，将捕捉数据返回对应的用户端108。在多个用户端108中，还可以包括通过服务器端109建立数据传输链路的相对用户端1081和1082。服务器端109可以接收用户端1081的视频数据，根据视频数据获得目标物体的捕捉数据，将捕捉数据进行进一步处理后，返回处理数据到相对用户端1081或相对用户端1082。

在一种实现方式中，如果存在多个用户端之间的交互，如图1D所示的第一用户端110、第二用户端111、第三用户端112，这三个用户端通过网络建立数据传输链路，比如第一用户端110创建直播间，第二用户端111和第三用户端112等观众端通过数据传输链路加入直播间。可以根据第一用户端110对应的用户的配置和硬件设施，对视频数据通过服务器端或用户端自身进行处理，获得捕捉数据，并将捕捉数据发送至第一服务器端113，使得第一服务器端113根据捕捉数据生成交互数据，将交互数据发送至第二用户端111、第三用户端112或者其他用户终端中的至少一个。接收到交互数据的观众端，能够观看到第一用户端110所获取的直播主播对应的虚拟形象的视频数据。

本申请实施例提供直播数据处理方法，包括如图2所示的流程，包括步骤S201-S205。图2所示的方法，可以应用于终端或视频数据处理平台，由运算装置执行步骤S201-S205，获得视频数据中目标对象的捕捉数据。

在步骤S201，在直播主播端通过直播服务器端创建直播间的情况下，获取直播主播端实时拍摄的第一视频数据。

本实施例中，直播主播端可以是笔记本电脑、手机、平板电脑或台式电脑等连接有摄像头的终端设备。直播主播端可以通过终端设备的摄像装置，比如手机摄像头、直播专用摄像头等，拍摄直播主播的实时视频数据，得到第一视频数据。

在另一种实施例中，第一视频数据可以是由单目RGB(Red Green Blue，红绿蓝)颜色模式摄像头所拍摄的视频数据。还可以是双目摄像头、深度摄像头等摄像头获取的视频数据。

在步骤S202，根据第一视频数据所包括的第一图像帧，获取直播主播对应于多个预设动作的多个第一动作幅度信息。

本实施例中，第一视频数据所包括的第一图像帧，可以是视频中的一个图像帧。在第一视频数据为多个图像帧按顺序排列构成、并可按顺序播放的视频的情况下，可以对第一视频数据中的多个图像帧按设定间隔进行提取，第一图像帧可以是提取出的多个图像帧之一。

本申请另一种实施例中，可以对第一视频数据中的各图像帧进行逐帧分析，按照图像帧的时间顺序，将各图像帧依次作为第一图像帧，进行循环的视频数据处理。

直播主播对应于多个预设动作的多个第一动作幅度信息，包括直播主播对应于多个预设身体动作或脸部动作的多个第一动作幅度信息。每个预设动作可以对应至少一个第一动作幅度信息。比如，可以预设多个脸部动作对应的数值，通过调整各脸部动作对应的数值大小，可形成多种人脸表情。再如，可预设多个身体动作对应的数值，通过调整各身体动作对应的数值大小，可形成人肢体或躯干的多种动作。

在步骤S203，根据第一动作幅度信息，生成直播主播的动作捕捉数据。

本实施例中，可对第一动作幅度信息进行数值处理，生成直播主播的动作捕捉数据。或者可以将第一动作幅度信息作为直播主播的动作捕捉数据。

在本申请另一种实施例中，根据第一动作幅度信息，生成直播主播的动作捕捉数据，可以包括：对第一动作幅度信息进行放大或缩小的调整，将调整后的动作幅度信息作为直播主播的动作捕捉数据。或者，根据预设的映射关系，将第一动作幅度信息映射为不同动作的第二动作幅度信息，将第二动作幅度信息作为直播主播的动作捕捉数据。或者，对第一动作幅度信息中的个别动作的第一动作幅度信息进行调整，得到直播主播的动作捕捉数据。

在步骤S204，根据直播主播的动作捕捉数据，生成第二图像帧；第二图像帧包括直播主体对应的虚拟主体。

本实施例中，根据直播主播的动作捕捉数据，生成第二图像帧，可以包括根据动作捕捉数据，对第二图像帧中的虚拟主体进行动作调整，使得虚拟主体的动作与直播主播的动作一致。

本申请实施例中，可以根据动作捕捉数据，确定虚拟主播对应多个预设动作的多个动作幅度信息，使得动作捕捉数据和虚拟主播对应的多个预设动作的多个动作幅度信息一致。

在步骤S205，根据第二图像帧，生成虚拟主体的第二视频数据，并将第二视频数据通过直播服务器端向加入直播间的直播观众端发送。

本实施例中，根据第二图像帧，生成虚拟主体的第二视频数据，可以包括将第二图像帧作为第二视频数据中的一帧，并对第一视频数据中的下一后续图像帧进行处理，生成第二图像帧在第二视频数据中的后续图像帧，如此实时生成第二视频数据中的每一图像帧。

将第二视频数据通过直播服务器端向加入直播间的直播观众端发送，可以包括，将第二视频数据形成的视频流通过直播服务器端向加入直播间的直播观众端发送，使得直播观众端能够观看到持续播放的第二视频数据。

通过本申请实施例，能够在直播过程中，对拍摄直播主播获得的实时视频数据进行处理，生成包含直播主播虚拟主体的第二视频数据，从而能够通过虚拟主体反映直播主播的动作信息，实现直播主播通过虚拟主体与直播观众间的互动。

在本申请一种实施例中，根据第一视频数据所包括的第一图像帧，获取直播主体的对应于多个预设动作的多个第一动作幅度信息，包括：

获得直播主播在第一图像帧中的图像区域的位置信息；

根据位置信息和第一图像帧，确定多个预设的动作各自对应的第一动作幅度信息。

获得直播主播在第一图像帧的图像区域的位置信息，可以是直播主播在第一图像帧中的位置，比如直播主播在第一图像帧中所在的像素位置信息或直播主播在第一图像帧中的坐标位置信息。

在本申请另一种实施例中，获得直播主播在第一图像帧中的图像区域的位置信息，还可以是对第一图像帧采用目标识别算法或特征点检测算法等算法，检测其中的第一目标对象，在检测出第一图像帧中存在第一目标对象的情况下，可获得第一目标对象在第一图像帧中的位置信息。

本申请实施例中，多个预设的动作可以包括直播主播的至少一个预设身体点或预设身体区域所能够产生的动作。比如，人身体部位的预设动作和人身体特征点的预设动作。

在本申请一种实施例中，多个预设的动作各自对应的第一动作幅度信息，可以包括预设的动作类型和各动作类型对应的动作幅度，即多个预设的动作中，每个预设的动作的第一动作幅度信息，可以包括预设的动作的动作类型和动作幅度。比如，在对直播主播的人体手部进行动作数据捕捉的情况下，多个预设的动作分别对应的类型可以包括食指弯曲、食指左移、食指右移、食指上移和食指下移等，各动作类型对应的动作幅度可以包括食指弯曲X1°、食指左移X2、食指右移0、食指上移X3、食指下移0，其中，X1、X2、X3可以为非0数字。

本实施例中，根据直播主播在第一图像帧中所在的区域和第一图像帧，对直播主播的第一动作幅度信息进行获取，能够捕捉到更为细致准确的动作数据。

在本申请一种实施例中，多个预设动作包括多个预设脸部表情动作；多个预设脸部表情动作对应的第一动作幅度信息，包括各预设脸部表情动作对应的动作幅度权重数据。

本申请实施例中，脸部表情动作可以包括脸部表情和脸部动作，脸部表情可以为人脸的喜、怒、哀、乐等情绪产生的表情，脸部动作可以为闭眼、张嘴等脸部器官动作。各预设脸部表情动作对应的动作幅度权重数据可以包括全部预设的脸部表情动作各自对应的动作幅度权重数据。比如，左眼张开权重数据为X4，右眼张开权重数据为X5，脸颊部位上提权重数据为X6等。

在通过第一视频数据对直播主播进行捕捉的数据为面部数据的情况下，捕捉数据可以用于对包括虚拟主体的第二视频数据进行真人驱动。作为真人驱动虚拟形象关键的步骤，实时面部捕捉一直是这项技术的重中之重。一般情况下，实时面部捕捉方案需要依赖专用的多传感器设备，具有较高的成本，无法普及到每个用户。本申请实施例中，仅需普通的用户终端，就能够实时获得第一视频数据，并对第一视频数据中的脸部数据进行捕捉，降低了面部捕捉或实时面部捕捉技术的实现难度，同时，直播主播本人无需在发送给观众端的视频流中展示本人，就能够将本人的面部表情数据传达给观众，提高了观众的观看效果。

在本申请一种实施例中，根据第一动作幅度信息，生成直播主播的动作捕捉数据，包括：对多个预设脸部表情动作中，至少一个预设脸部表情动作对应的动作幅度权重数据进行调整，获得调整后的动作幅度权重数据；根据调整后的动作幅度权重数据，生成直播主播的动作捕捉数据。

本实施例中，对多个预设脸部表情动作中，至少一个预设脸部表情动作对应的动作幅度权重数据进行调整，可以包括，将多个预设脸部表情动作中，指定的至少一个预设脸部表情动作对应的动作幅度权重数据调整至参考范围或参考值。指定的至少一个预设脸部表情动作，可以是引起设定奇怪表情的预设脸部表情动作、夸张的脸部表情动作或者与当前场景不符合的表情动作。

在本申请另一种实施例中，需要调整的至少一个预设脸部表情动作，可以根据直播类型或直播的场景进行确定。比如，直播为购物直播，则可通过对至少一个预设脸部表情动作进行调整，以增加购物的趣味性。再如，直播为讲课直播的情况下，可通过对至少一个预设脸部表情动作进行调整，提高讲课直播的严肃性。

在本申请一种实施例中，多个预设脸部动作包括多个预设脸部转动动作；多个预设脸部转动动作对应的第一动作幅度信息，包括各预设脸部转动动作对应的转动角度。

本申请实施例中，多个预设脸部转动动作可以是头部转动动作。多个预设脸部转动动作可以是脸部或头部可能产生的动作，比如，左右转动、上下转动和前后转动。相应的，多个预设脸部转动动作对应的第一动作幅度信息，可以包括：左右转动0°、上下转动α°和前后转动β°。

在本申请一种实施例中，多个预设动作包括多个预设脸部表情动作的情况下，多个预设脸部表情动作可以进一步包括多个预设脸部表情和多个预设脸部转动动作，从而同时提取到人脸的表情数据和头部转动数据。

在本申请一种实施例中，转动角度包括四元数角度。

本实施例中，采集转动角度时，可采集直播主播的脸部(或身体)在设定的三维坐标系中，围绕X轴的转动角度、围绕Y轴的转动角度和围绕Z轴的转动角度中的至少一个，作为脸部转动动作或者其他身体部位的转动动作对应的转动角度。

本申请实施例中，四元数角度可以包括采用四元数表示的角度。其中四元数，可以是简单的超复数。本申请实施例中，四元数可以由实数加上三个虚数单位i、j和k组成，而且它们有如下的关系：i²＝j²＝k²＝-1，i⁰＝j⁰＝k⁰＝1,每个四元数都是1、i、j和k的线性组合，即是四元数一般可表示为a+bi+cj+dk，其中a、b、c、d是实数。

本实施例中，将转动角度采用四元数的形式表达，避免采用模型识别转动角度的过程中，由于模型未完成有效学习而导致的识别过程卡顿在目标对象的某一个角度的现象。

在本申请一种实施例中，获得直播主播在第一图像帧中的图像区域的位置信息，包括：

在能够根据第一图像帧和/或第一图像帧的前序图像帧确定直播主播所在图像区域符合预设要求的情况下，获取直播主播所在图像区域的多个关键点的位置信息；将多个关键点的位置信息作为直播主播所在图像区域位置信息。

上述关键点也可以是特征点，在预设动作包括预设脸部表情动作的情况下，关键点可以包括脸部关键点。

本实施例中第一图像帧的前序图像帧可以是第一图像帧前序时序的设定数目个图像帧。比如，第一图像帧为第N1个图像帧，则第一图像帧的前序图像帧为第N2至第N1-1个图像帧，其中N2为小于N1大于0的整数。

本申请实施例中，在能够根据第一图像帧和/或第一图像帧的前序图像帧确定直播主体所在图像区域符合预设要求的情况下，采用对图像帧质量要求更高的方式对位置信息进行捕捉，从而能够根据质量更高的图像帧得到更为高质量的位置信息，有助于生成更为生动准确高质量的虚拟形象对应的图像帧数据。

由于第一目标对象的关键点的位置信息，不仅能够反映出第一目标对象在图像帧中所在的位置，还能够用于确定第一目标对象的动作、运动状态，因此，在第一目标对象在图像帧中所在的区域质量较高(即符合预设要求)的情况下，获取第一目标对象的关键点，有利于精确捕捉第一目标对象的动作和运动状态。

在本申请一种实施例中，获得直播主播在第一图像帧中的图像区域的位置信息，包括：在能够根据第一图像帧和/或第一图像帧的前序图像帧确定直播主播所在图像区域不符合预设要求的情况下，获取直播主播的识别框位置信息；将识别框位置信息作为直播主播所在图像区域的位置信息。

在本申请一种实施例中，预设要求包括直播主播所在图像区域中，直播主播的完整程度和/或清晰程度。

本实施例中，直播主播的完整程度，可以包括直播主播的脸部或身体或其他目标部位有无被遮挡的信息和/或第一目标对象有无完全在图像帧中展示的信息。比如，因为头部的转动，脸部的完整程度为50％。再如，因为被遮挡，脸部的完整程度为30％。

直播主播的清晰程度，可以包括可见度，也可以包括直播主播在图像帧中是否存在帧间抖动的信息。直播主播的清晰程度可能受直播主播自身的运动、第一视频数据拍摄装置的抖动或者像素因素等条件的影响。

在本申请一种实施例中，在不能够根据第一图像帧和/或第一图像帧的前序图像帧确定对直播主播处于视频追踪状态的情况下，停止根据直播主播的动作捕捉数据生成第二图像帧。

本申请实施例中，可以在根据第一图像帧和/或第一图像帧的前序图像帧确定直播主播的脸部角度、位置发生突变，或者直播主播的脸部完整程度发生突变、或者直播主播的脸部是否存在于图像帧中的情况发生突变的情况下，认为不能够根据第一图像帧和/或第一图像帧的前序图像帧确定对直播主播处于视频追踪状态。

在直播过程中，直播主播一般会长时间在直播画面中出现，但是，直播过程中可能存在主播在直播画面中暂时离开或者转头与身边的其他直播工作人员沟通的情况。这种情况很可能不方便向直播观众公开，也不属于直播主播应当公开的内容，从而，在本申请实施例中，可在检测到直播主体所在的图像区域符合预设要求的情况下，才对直播主体进行追踪；反之，若直播主体脸部或者身体角度、直播主体离开直播终端摄像头拍摄范围或者直播主体主要身体部分(比如大部分脸部)离开直播终端摄像头拍摄范围，则确定未处于对直播主体进行追踪的状态，停止执行进行虚拟主体的驱动，具体可通过停止执行下述任意一项操作实现：根据第一视频数据所包括的第一图像帧，获取直播主播对应于多个预设动作的多个第一动作幅度信息；根据第一动作幅度信息，生成直播主播的动作捕捉数据；根据直播主播的动作捕捉数据，生成第二图像帧；根据第二图像帧，生成虚拟主体的第二视频数据；将第二视频数据通过直播服务器端向加入直播间的直播观众端发送。

在一种实现方式中，如果确定未处于对直播主体进行追踪的状态，可停止直播主播的动作捕捉数据生成虚拟主体在第二视频数据中的动作。

在本申请一种实施例中，根据第一动作幅度信息，生成直播主播的动作捕捉数据，包括：根据第二动作幅度信息和第一动作幅度信息，对第一动作幅度信息进行调整，使得第一动作幅度信息与第二动作幅度信息之间的变化符合预设的变化趋势；第二动作幅度信息为根据直播主播在第三图像帧中所在区域的位置信息和第三图像帧确定的；第三图像帧包括第一图像帧在第一视频数据中的前序图像帧或后序图像帧；根据调整后的第一动作幅度信息生成直播主播的动作捕捉数据。

在本申请实施例中，预设的变化趋势可以是符合预设平滑程度的变化趋势。根据第二动作幅度信息和第一动作幅度信息，对第一动作幅度信息进行调整，使得第一动作幅度信息与第二动作幅度信息之间的变化符合预设的变化趋势，从而能够使得第一动作幅度信息在不同图像帧之间的变化较为平缓。

在本申请另一种实施例中，还包括对调整变化趋势后的第一动作幅度信息进行噪声信号消除处理。

本实施例中，对第一动作幅度信息与第二动作幅度信息进行比较，以调整不同图像帧之间的动作幅度变化趋势，使得获取的捕捉数据变化更为平缓，提高捕捉数据与真实数据的符合程度。

本申请实施例还提供一种视频会议数据处理方法，包括：根据用户终端加入视频会议的信息，通过用户终端的摄像头拍摄参会用户参与视频会议的第三视频数据；根据第三视频数据所包括的第三图像帧，获取参会用户对应于多个预设动作的多个第三动作幅度信息；根据第三动作幅度信息，生成参会用户的动作捕捉数据；根据参会用户的动作捕捉数据，生成第四图像帧；第四图像帧包括参会用户对应的虚拟主体；根据第四图像帧，生成虚拟主体的第四视频数据，并将第四视频数据向加入视频会议的其他终端发送。

在本申请一种实施例中，根据第三视频数据所包括的第三图像帧，获取参会用户的对应于多个预设动作的多个第三动作幅度信息，包括：获得参会用户在第三图像帧中的图像区域的位置信息；根据位置信息和第三图像帧，确定多个预设的动作各自对应的第三动作幅度信息。

在本申请一种实施例中，多个预设动作包括多个预设脸部表情动作；多个预设脸部表情动作对应的第三动作幅度信息，包括各预设脸部表情动作对应的动作幅度权重数据。

在本申请一种实施例中，根据第三动作幅度信息，生成参会用户的动作捕捉数据，包括：对多个预设脸部表情动作中，至少一个预设脸部表情动作对应的动作幅度权重数据进行调整，获得调整后的动作幅度权重数据；根据调整后的动作幅度权重数据，生成参会用户的动作捕捉数据。

在本申请一种实施例中，多个预设脸部动作包括多个预设脸部转动动作；多个预设脸部转动动作对应的第三动作幅度信息，包括各预设脸部转动动作对应的转动角度。

在本申请一种实施例中，转动角度包括四元数角度。

在本申请一种实施例中，获得参会用户在第三图像帧中的图像区域的位置信息，包括：在能够根据第三图像帧和/或第三图像帧的前序图像帧确定参会用户所在图像区域符合预设要求的情况下，获取参会用户所在图像区域的多个关键点的位置信息；将多个关键点的位置信息作为参会用户所在图像区域位置信息。

在本申请一种实施例中，获得参会用户在第三图像帧中的图像区域的位置信息，包括：在能够根据第三图像帧和/或第三图像帧的前序图像帧确定参会用户所在图像区域不符合预设要求的情况下，获取参会用户的识别框位置信息；将识别框位置信息作为参会用户所在图像区域的位置信息。

在本申请一种实施例中，预设要求包括参会用户所在图像区域中，参会用户的完整程度和/或清晰程度。

在本申请一种实施例中，根据第三动作幅度信息，生成参会用户的动作捕捉数据，包括：根据第四动作幅度信息和第三动作幅度信息，对第三动作幅度信息进行调整，使得第三动作幅度信息与第四动作幅度信息之间的变化符合预设的变化趋势；第四动作幅度信息为根据参会用户在第三图像帧中所在区域的位置信息和第三图像帧确定的；第三图像帧包括第三图像帧在第三视频数据中的前序图像帧或后序图像帧；根据调整后的第三动作幅度信息生成参会用户的动作捕捉数据。

在本申请一种实施例中，在不能够根据第三图像帧和/或第三图像帧的前序图像帧确定对参会用户处于视频追踪状态的情况下，停止根据参会用户的动作捕捉数据生成第四图像帧。

本申请实施例中，可以在根据第三图像帧和/或第三图像帧的前序图像帧确定参会用户的脸部角度、位置发生突变，或者参会用户的脸部完整程度发生突变、或者参会用户的脸部是否存在于图像帧中的情况发生突变的情况下，认为不能够根据第三图像帧和/或第三图像帧的前序图像帧确定对参会用户处于视频追踪状态。

一般情况下，视频会议应用于商务等比较正式的场合。但是在视频会议过程中，也存在会议一方多个成员希望暂时内部成员之间商议事项、或者会议一方因为某些原因暂时不能处于会议状态的情况。比如，在企业内部成员A与合作方进行视频会议的过程中，企业内部成员B到达A所处的会议室，通知B一些突发事项，此时，A很可能暂时处于不能入会的状态，A需要移动脸部、头部，与B进行突发事项的商议。这种情况下，参会用户并不希望暂时性不在会议状态的形象呈现于视频数据中，被其他参会用户收看。同时，由于突发事项导致参会用户头部扭转，在用户头部或脸部未处于正对摄像头的角度时，用户的脸部动作信息的识别过程很可能出现较大的误差。倘若参会用户在暂时性突发事项发生之前，正与其他参会用户商讨比较正式或者敏感的话题，而在参会用户被暂时性突发事项打断时，仍然对参会用户进行脸部动作识别，则会导致将识别误差很大的表情或面部动作信息输出到虚拟形象，其他参会用户观看到虚拟形象传达的误差较大的面部动作或表情信息时，会对此产生误解，甚至产生不好的印象，影响视频会议的最终结果。

本申请实施例中，在根据第三图像帧的前序和/或后序图像帧确定参会用户符合追踪状态的情况下，停止根据参会用户的动作捕捉数据生成第四图像帧，在参会用户开会过程中遇到突发事件而处于暂时不能参会的状态时，避免将用户不在会议的临时状态捕捉，引起虚拟形象传达误差较大的动作识别数据，保证其他参会用户接收到容易误解的虚拟形象信息，产生不良的会议效果。

本申请实施例还提供一种视频数据处理方法，包括：获取实时拍摄的第五视频数据；根据第五视频数据所包括的第五图像帧，获取第一目标对象对应于多个预设动作的多个第五动作幅度信息；根据第五动作幅度信息，生成第一目标对象的动作捕捉数据；根据目标对象的动作捕捉数据，生成第六图像帧；第六图像帧包括第一目标对象对应的虚拟主体；根据第六图像帧，生成虚拟主体的第六视频数据，并将第六视频数据向加入视频会议的其他终端发送。

本实施例中，第五视频数据可以是通过专门用于摄像的摄像装置，如数码相机、单反相机、摄像机或监控摄像头等装置拍摄的视频数据。通过专门用于摄像的摄像装置(如数码相机、摄像机等)拍摄第五视频数据后，将第五视频数据导出。

第五视频数据还可以是通过附带有摄像装置的终端拍摄获取的视频数据。如通过手机、笔记本电脑或平板电脑等设备所附带的摄像装置拍摄获取第五视频数据。

在另一种实现方式中，第五视频数据可以是通过专门的视频生成模块生成的视频数据，比如，动画视频生成模块生成的动画视频或根据虚拟人物生成的虚拟视频等。或者，第五视频数据可以是对其他视频数据进行内容改动后生成的视频数据。

在本申请实施例中，第五视频数据可以是多个图像帧构成并可按照设定顺序连续播放的视频，还可以是单独的图像帧，或者还可以是动态的图像。

在本申请实施例中，第一目标对象可以是需要捕捉数据的对象，可以是任意有形物体，如人体、动物、车辆、树木和河流等中的至少一种。

第一目标对象可以是在第五图像帧中所拍摄的对象，可以是一个或多个人、一个或多个物、单独的人、人体的组成部分、物品的组成部分、单独的人、单独的物或人和物的组合。在目标对象包括人和物的组合的情况下，人和物之间可以具备一定的关联关系，比如一个跳舞者和跳舞者手中所拿的舞蹈物品，人和物之间也可以不具备关联关系，比如马路上的行人和来往车辆。

本申请实施例中，在第一目标对象包括多个物、多个人或人和物的组合的情况下，各个物、各个人可分别对应多个预设的目标对象动作。比如，如果第一目标对象包括一个物品A、一个动物B、一个人C，则物品A对应多个预设的目标对象动作，动物B对应多个预设的目标对象动作，同样人C也对应多个预设的目标对象动作。

本申请实施例中，第一目标对象对应的多个预设动作可以包括第一目标对象的至少一个预设点或预设区域所能够产生的动作。比如，第一目标对象为树木的情况下，第一目标对象对应的多个预设的目标对象动作，可以包括树木的顶点的左右摇摆动作和树冠边缘点的左右摇摆动作。再如，目标对象为动物的情况下，第一目标对象对应的多个预设的目标对象动作，可以包括动物的身体部位的预设动作(耳朵动作、眼睛动作、尾巴动作、背腹动作、颈部动作或四肢动作等)和动物的身体特征点(尾巴根部、四肢关节处、鼻子尖部或耳朵尖部等)的预设动作。再如，第一目标对象为人的情况下，第一目标对象对应的多个预设的目标对象动作，可以包括人体的部位的预设动作和人体的特征点的预设动作。

在本申请另一种实施例中，第一目标对象还可以包括人或物的组成部分，比如人体的躯干、头部或脸部，再如车辆的车轮、车身、雨刷、后备箱盖或后视镜等。在第一目标对象为人或物的组成部分的情况下，第一目标对象对应的多个预设的目标对象动作，可以包括对目标对象进一步进行区域划分后的各区域能够产生的动作和目标对象的特征点能够产生的动作。比如，第一目标对象为人的手部，则第一目标对象对应的多个预设动作可以包括手部的各个手指能够产生的动作和/或手部的特征点能够产生的动作。

本申请实施例中，在第五视频数据为实时拍摄的视频数据的情况下，将实时拍摄获取的图像帧作为第五图像帧，就能够实现实时面部捕捉，能够对获取的第五视频数据进行预设的目标对象动作进行分析，得到目标对象动作对应的动作幅度信息，从而无需其他硬件设备支持，仅需视频和对视频进行计算分析的模块，就能够对目标对象的数据进行捕捉，简化了目标对象捕捉数据获取方式，进而简化了基于捕捉数据的虚拟技术的实现方式，降低了基于捕捉数据的虚拟技术的设备要求，使得用户能够更为便捷、高效地应用基于捕捉数据的虚拟技术。

本申请实施例中，上述基于捕捉数据的虚拟技术，可以包括基于捕捉数据，在元宇宙空间中生成或投射虚拟目标的技术；或基于捕捉数据，驱动视频中的虚拟目标的视频驱动技术；或者基于捕捉数据，与预先生成的交互视频进行交互的VR(Virtual Reality，虚拟现实)技术；或基于捕捉数据，生成虚拟现实场景中的虚拟对象的AR(Augmented Reality，增强现实)技术等。

在本申请一种实现方式中，第一目标对象为脸部；多个预设的目标对象动作包括多个预设脸部表情动作；多个预设脸部表情动作对应的第五动作幅度信息，包括各预设脸部表情动作对应的动作幅度权重数据。

在本申请一种实现方式中，第一目标对象为脸部，根据第五动作幅度信息，生成第五视频数据的目标对象捕捉数据，包括：对多个预设脸部表情动作中，至少一个预设脸部表情动作对应的动作幅度权重数据进行调整，获得调整后的动作幅度权重数据；根据调整后的动作幅度权重数据，生成第五视频数据的第一目标对象捕捉数据。

在本申请实施例中，需要调整的至少一个预设脸部表情动作，可以根据捕捉数据适用的场景进行确定。比如，在某些重大会议的场景下，预设脸部表情动作可以为被认为能够引起非严肃表情的脸部表情动作。再如，避免在演讲场景中，提取到的真人人脸作为目标对象的捕捉数据，包含了在游戏场景下才会出现的激动表情数据。

本实施例中，对预设脸部表情动作进行调整，能够符合一些场景下的特定要求，比如，在会议、商业活动等较为严肃的场景下，可以避免对真人出现的紧张表情等对会议或商业活动等真实场景没有实际意义的数据进行捕捉。同时也能够避免因为捕捉数据过程中的误差导致捕捉数据在应用时，出现与场景不适宜的问题，比如，在对真人面部数据进行捕捉时，可能真人并未做出非严肃表情，但是因为捕捉过程的误差或者数据处理的卡顿等原因，造成捕捉数据中包含了非严肃表情的信息，进而在利用捕捉数据塑造虚拟形象时，虚拟形象也带有因为误差或卡顿而被错误捕捉的非严肃表情。

在本申请一种实现方式中，多个预设脸部动作包括多个预设脸部转动动作；多个预设脸部转动动作对应的第五动作幅度信息，包括各预设脸部转动动作对应的转动角度。

在本申请一种实现方式中，转动角度包括四元数角度。

在本申请一种实现方式中，根据第五视频数据所包括的第五图像帧，获取第一目标对象对应于多个预设动作的多个第五动作幅度信息，包括：获得第一目标对象在第五图像帧中所在的图像区域的位置信息；根据位置信息和第五图像帧，确定多个预设动作各自对应的第五动作幅度信息。

上述获得第一目标对象在第五图像帧中所在的图像区域的位置信息，包括：在能够根据第五图像帧和/或第五图像帧的前序图像帧确定第一目标对象所在图像区域符合预设要求的情况下，获取第一目标对象所在图像区域的多个关键点的位置信息；将多个关键点的位置信息作为第一目标对象所在图像区域位置信息。

本实施例，第一目标对象的关键点可以包括预先设定的特征点，比如，预先设定车辆的特征点包括车辆的车身各定点、车轮中心点、车轮边缘点等等。在本申请一种实现方式中，获得第一目标对象在第五图像帧中所在的图像区域的位置信息，包括：在能够根据第五图像帧和/或第五图像帧的前序图像帧确定第一目标对象所在图像区域不符合预设要求的情况下，获取第一目标对象的识别框位置信息；将识别框位置信息作为第一目标对象所在图像区域的位置信息。

在本申请一种实施例中，目标对象包括多个的情况下，可通过关键点和识别框结合的方式，对不同的目标对象进行识别。如图4所示，第一图像帧400中包括人脸401和动物头部402，可对人脸401采用关键点识别的方式进行识别，对动物头部402采用识别框的方式进行识别。在另一种实施方式中，第一目标对象还可以包括多个人脸，多个人脸可以对应多个参加直播购物的卖家或买家、多个参加视频会议的人员、游戏中的多个参与者或虚拟运动的多个参与者等。

本实施例中，在第五图像帧中的目标对象不符合预设要求的情况下，可能获得第一目标对象的关键点存在一定难度，从而通过识别框获得第一目标对象所在图像区域的位置信息，能够保证第一目标对象的捕捉的连续性。

在本申请一种实现方式中，预设要求包括目标对象所在图像区域中，第一目标对象的完整程度和/或清晰程度。

在本申请一种实现方式中，根据第五动作幅度信息，生成第五视频数据的目标对象捕捉数据，包括：根据第六动作幅度信息和第五动作幅度信息，对第五动作幅度信息进行调整，使得第五动作幅度信息与第六动作幅度信息之间的变化符合预设的变化趋势；第六动作幅度信息为根据第三图像帧中的第三目标对象所在区域的位置信息和第三图像帧确定的；第三图像帧包括第五图像帧在第五视频数据中的前序图像帧或后序图像帧；根据调整后的第五动作幅度信息生成第五视频数据的第一目标对象捕捉数据。

在本申请一种实现方式中，第五视频数据包括：通过摄像装置拍摄获得红绿蓝色彩模式的视频数据。

本实施例中，红绿蓝色彩模式的视频数据可以通过移动终端附带的摄像装置、数码相机、摄像机、单反相机或监控摄像头等拍摄装置获取。

随着元宇宙技术的提出和发展，虚拟形象开始在社交、游戏、购物等多种场景下取代真人形象，虚拟主播、虚拟IP(Internet Protocol，网际互连协议)偶像、趣味数字人化身等等数字人应用如雨后春笋般层出不穷。然而居高不下的成本一直是虚拟形象技术难以大规模普及的瓶颈之一。为驱动虚拟形象，需要对用户的面部表情和动作进行实时捕捉，而一般的实时面捕解决方案有的依赖价值不菲的硬件设备，有的依赖专业的闭源收费软件，都不具备大规模普及的可能性。

为解决上述痛点，本申请实施例提供的数据捕捉和视频驱动方法，能够采用单目RGB摄像头的获取的视频数据实现实时的目标对象的数据捕捉，在普通PC(PersonalComputer，个人电脑)机上即可实现实时面部表情和姿态捕捉，从而驱动虚拟形象做出相应表情和动作，为视频会议和直播等网络交互行为带来了新的体验。

本实施例中，通过普通的单目RGB摄像头就能够获取第一视频数据，从而可以利用已经在用户终端中普及的单目RGB摄像头对用户人脸进行实时追踪，并输出捕捉数据，具有低成本、易普及、可被集成的优点。可应用于视频会议的虚拟形象和虚拟项目室3D(3Dimension，3维)头像构建中，在视频会议、直播等场景具有广泛的应用前景。

本申请实施例还提供一种视频驱动方法，包括：获得捕捉数据；捕捉数据为本申请任意一项实施例所提供的数据捕捉方法所获取的目标对象捕捉数据；根据捕捉数据，驱动第七视频数据所包括的第七图像帧中的第二目标对象所在的图像区域产生动作，使得第二目标对象所在图像区域产生与捕捉数据对应的动作。

本申请实施例中，第二目标对象和第一目标对象可以为同类的目标对象，比如第一目标对象和第二目标对象均为人脸、人体或物体。目标对象和第二目标对象也可以不同类的第一目标对象，比如，第一目标对象为人脸，第二目标对象为人脸雕塑等。再如，第一目标对象为第一物体，第二目标对象为第二物体等。

本申请实施例中，能够通过一个视频数据中的第一目标对象的捕捉数据，驱动另一个视频数据中的第二目标对象的动作，从而只要能够获得视频数据，就能够实现视频驱动，降低了视频驱动的实现难度。

在本申请一种实现方式中，第一目标对象为脸部；第二目标对象为脸部；第二图像帧中的第二目标对象所在的图像区域，包括第二视频数据中，与第一图像帧对应的至少一个图像帧中的虚拟脸部区域。

除了使用捕捉数据进行视频驱动之外，在其他实施例中，还可以采用捕捉数据在其他数据(如图像数据、投影数据)中进行建模，还可以对捕捉数据进行特定目的的分析以得出分析结论。比如，对捕捉数据进行分析，确定第一目标物体是否完成了预设要求的动作。在第一目标物体为人体的情况下，可以对捕捉数据进行分析，判断人体各个特征点的动作是否与预设的健身、舞蹈、瑜伽等动作相符合。再如，第一目标对象为人体，第一视频数据为人体跳舞的视频，根据捕捉数据，创建合成视频数据，合成视频数据中包括虚拟人物，根据捕捉数据进一步驱动虚拟人物进行跳舞，生成舞蹈教学视频。再如，第一目标对象为人脸，在用户与其他多个用户进行视频会议的过程中，根据第一视频数据创建第一目标对象的虚拟形象，并根据捕捉数据驱动虚拟形象做出说话、表情等人脸动作，实现与其他用户的会议互动。

本申请实施例中，能够利用第一视频数据中的脸部的捕捉数据，驱动第二视频数据中的虚拟脸部区域，从而在第一视频数据能够实时拍摄的情况下，对第二视频数据中的虚拟人脸也能够实时进行驱动，降低了实时人脸驱动的难度，有利于实时人脸驱动应用于直播、社交、会议、工作、教学或游戏等多种多用户互动场景。

本申请各个实施例提供的数据捕捉方法可以在服务器端执行，由用户通过客户端获得第一视频数据之后，将第一视频数据发送到服务器端，由服务器端进行第一目标对象的捕捉数据获取。在一种实施方式中，第一目标对象还可以是用户在通过客户端向服务器端发送第一视频数据时，自己定义的目标对象，例如，用户在向服务器端发送第一视频数据时，在第一图像帧中框出第一目标对象，用户还可以对第一目标对象设置自定义的关键点。

本申请各个实施例提供的数据捕捉方法还可以在客户端执行，由客户端针对获得的第一视频数据进行第一目标对象的捕捉数据获取。用户也可以在客户端框选第一图像帧中的第一目标对象，还可以在客户端自定义第一目标对象的关键点。

本申请各个实施例提供的视频驱动方法，也可以在服务器端执行。捕捉数据可以是客户端获取并发送到服务器端的，服务器端根据接收到的捕捉数据，对第二视频数据进行驱动。用户还可以选择作为被驱动对象的第二视频数据，也可以在服务器端选择第二图像帧中与第一目标对象对应、被捕捉数据驱动的第二目标对象，也可以自定义第二目标对象的关键点以及第二目标对象的关键点与第一目标对象的关键点之间的对应关系。服务器端还可以接收客户端发送的捕捉数据和第二视频数据，然后根据捕捉数据对第二视频数据进行驱动。

本申请各个实施例提供的视频驱动方法，还可以应用于客户端，由客户端根据自身生成或者从别处获取的捕捉数据和第二视频数据，对第二视频数据进行驱动。

在本申请一种实施例中，将人脸作为需要捕捉数据的目标对象。可首先获取摄像头拍摄到的视频数据，然后经过人脸追踪模块获取用户的人脸区域，再在人脸区域内使用人脸表情姿态识别模块获取到用户表情和姿态数据，最后经过表情调优模块进行表情数据和姿态的调整和输出。这一过程的具体流程可参照图3A-3D所示。如图3A，针对人脸的数据捕捉方法可以包括步骤S301-S303。

在步骤S301，利用摄像头拍摄的第一视频数据经过人脸追踪模块，得到第一视频数据所包括的第一图像帧中的人脸区域。

在一种实现方式中，上述人脸追踪模块的操作过程如图3B所示，在初始化时，将人脸追踪模块的追踪状态设置为False(否)。人脸区域的追踪过程包括：步骤S3011，判断人脸追踪模块当前是否处于追踪状态。步骤S3012，若不在追踪状态，使用人脸检测器对画面进行人脸检测。步骤S3013，若检测到人脸则输出人脸ROI(Region Of Interest，感兴趣区域，意为得到整幅图像中某一需要的区域)坐标，并将追踪状态置为True(是)。步骤S3014，若未检测到则终止流程。步骤S3015，若处于追踪状态，则在人脸区域使用人脸关键点模型获取用户人脸关键点位置和每个关键点的可见度，并利用关键点位置得到人脸区域ROI坐标。步骤S3016，得到人脸ROI坐标后，结合每个关键点的可见度判断当前人脸是否处于可识别范围内，若否则退出返回。步骤S3017，若判定当前人脸处于可检测范围内，则输出人脸ROI坐标。

在步骤S302，将人脸区域输入BSNet(BlendShapes Net，变形动画网络)，得到人脸分数，BlendShape(变形动画)权重和人脸俯仰角等姿态数据。

在步骤S302中，如图3C所示，将人脸ROI区域3021输入BSNet3022，得到人脸分数，并对人脸分数是否小于设定阈值进行判断。若人脸分数小于阈值，则退出，并将人脸追踪模块追踪状态置为False。若大于阈值，则输出头部姿态俯仰角数据(Yaw,Pitch,Roll，偏航角，俯仰角，横滚角)和BlendShape权重。其中，输出头部姿态俯仰角数据前，可以将(Yaw,Pitch,Roll)格式的欧拉转角数据转换为四元数，以避免模型分析数据时卡顿在头部的一个特定方向上。本申请实施例中，人脸ROI区域3021可以包括多个图像帧的人脸ROI区域。

上述BlendShape权重可以相当于前述实施例的第一动作幅度信息中的动作幅度权重数据。上述头部姿态俯仰角数据可以相当于前述实施例的第一动作幅度信息中的预设脸部转动动作。

上述BlendShape，也可称为morph target(变形目标)，表示面部表情，相当于前述实施例中的预设脸部表情动作。

在步骤S303：利用人脸追踪模块得到的关键点数据对得到的BlendShape权重和头部姿态俯仰角数据进行平滑和修正。

步骤S303具体包括如图3D所示的过程。本申请实施例中，对BlendShape权重和头部姿态俯仰角数据进行平滑和修正的过程可以包括，对BlendShape权重和头部姿态俯仰角数据3031进行判断，判断对应的人脸是否处于追踪状态，若是，则将BlendShape权重和头部姿态俯仰角数据3031与人脸关键点数据3032一起，进行表情权重调整，将可能产生奇怪表情的BlendShape权重、头部姿态俯仰角数据和人脸关键点数据调整至预设的参考范围内。将调整后的BlendShape权重、头部姿态俯仰角数据和人脸关键点数据，以及其余未调整的部分BlendShape权重、头部姿态俯仰角数据和人脸关键点数据一起，输入滤波器3033进行滤波。根据滤波后的数据，得到调整后的头部姿态俯仰角数据的四元数和调整后的BlendShape权重。

本申请实施例中，在人脸追踪是采用了检测和关键点模型交替的技术，在降低计算量的同时，稳定了人脸区域的帧间抖动，同时使用轻量级的卷积神经网络(BSNet)直接回归人脸姿态和多个BlendShape权重，支持的表情更多更丰富。由于本申请实施例单目RGB摄像头的数据，因此具有较高的通用性。通过普通的RGB摄像头实现实时面部捕捉，对用户进行实时面部跟踪，支持输出头部姿态和多个BlendShape权重，极致优化的性能，支持在多个平台上运行。

与本申请实施例提供的直播数据处理方法相对应地，本申请实施例还提供一种直播数据处理装置，如图5所示，包括：第一视频数据获取模块501，用于在直播主播端通过直播服务器端创建直播间的情况下，获取直播主播端实时拍摄的第一视频数据；第一动作幅度信息获取模块502，用于根据第一视频数据所包括的第一图像帧，获取直播主播对应于多个预设动作的多个第一动作幅度信息；动作捕捉数据生成模块503，用于根据第一动作幅度信息，生成直播主播的动作捕捉数据；第二图像帧生成模块504，用于根据直播主播的动作捕捉数据，生成第二图像帧；第二图像帧包括直播主体对应的虚拟主体；发送模块505，用于根据第二图像帧，生成虚拟主体的第二视频数据，并将第二视频数据通过直播服务器端向加入直播间的直播观众端发送。

在一种实施方式中，第一动作幅度信息获取模块包括：位置信息单元，用于获得直播主播在第一图像帧中所在的图像区域的位置信息；位置信息处理单元，用于根据位置信息和第一图像帧，确定多个预设的动作各自对应的第一动作幅度信息。

在一种实施方式中，多个预设动作包括多个预设脸部表情动作；多个预设脸部表情动作对应的第一动作幅度信息，包括各预设脸部表情动作对应的动作幅度权重数据。

在一种实施方式中，动作捕捉数据生成模块包括：权重数据单元，用于对多个预设脸部表情动作中，至少一个预设脸部表情动作对应的动作幅度权重数据进行调整，获得调整后的动作幅度权重数据；权重数据处理单元，用于根据调整后的动作幅度权重数据，生成直播主播的动作捕捉数据。

在一种实施方式中，多个预设脸部动作包括多个预设脸部转动动作；多个预设脸部转动动作对应的第一动作幅度信息，包括各预设脸部转动动作对应的转动角度。

在一种实施方式中，转动角度包括四元数角度。

在一种实施方式中，位置信息单元还用于：在能够根据第一图像帧和/或第一图像帧的前序图像帧确定直播主播所在的图像区域符合预设要求的情况下，获取直播主播所在图像区域的多个关键点的位置信息；将多个关键点的位置信息作为直播主播所在图像区域位置信息。

在一种实施方式中，位置信息单元还用于：在能够根据第一图像帧和/或第一图像帧的前序图像帧确定直播主播所在图像区域不符合预设要求的情况下，获取直播主播的识别框位置信息；将识别框位置信息作为直播主播所在图像区域的位置信息。

在一种实施方式中，预设要求包括直播主播所在的图像区域中，直播主播的完整程度和/或清晰程度。

在一种实施方式中，位置信息单元还用于：在不能够根据第一图像帧和/或第一图像帧的前序图像帧确定直播主播所在的图像区域符合预设要求的情况下，停止根据直播主播的动作捕捉数据生成第二图像帧。

在一种实施方式中，动作捕捉数据生成模块包括：调整单元，用于根据第二动作幅度信息和第一动作幅度信息，对第一动作幅度信息进行调整，使得第一动作幅度信息与第二动作幅度信息之间的变化符合预设的变化趋势；第二动作幅度信息为根据直播主播在第三图像帧中所在区域的位置信息和第三图像帧确定的；第三图像帧包括第一图像帧在第一视频数据中的前序图像帧和/或后序图像帧；调整信息处理单元，用于根据调整后的第一动作幅度信息生成直播主播的动作捕捉数据。

本申请实施例还提供一种视频会议数据处理装置，包括：第三视频数据获取模块，用于根据用户终端加入视频会议的信息，通过用户终端的摄像头拍摄参会用户参与视频会议的第三视频数据；第三动作幅度信息获取模块，用于根据第三视频数据所包括的第三图像帧，获取参会用户对应于多个预设动作的多个第三动作幅度信息；动作捕捉数据生成模块，用于根据第三动作幅度信息，生成参会用户的动作捕捉数据；第四图像帧生成模块，用于根据参会用户的动作捕捉数据，生成第四图像帧；第四图像帧包括参会用户对应的虚拟主体；第四视频数据生成模块，用于根据第四图像帧，生成虚拟主体的第四视频数据，并将第四视频数据向加入视频会议的其他终端发送。

本申请实施例还提供一种视频数据处理装置，包括：第五视频数据获取模块，用于获取实时拍摄的第五视频数据；第五动作幅度信息获取模块，用于根据第五视频数据所包括的第五图像帧，获取目标对象对应于多个预设动作的多个第五动作幅度信息；动作捕捉数据生成模块，用于根据第五动作幅度信息，生成目标对象的动作捕捉数据；第六图像帧生成模块，用于根据目标对象的动作捕捉数据，生成第六图像帧；第六图像帧包括目标对象对应的虚拟主体；第六视频数据生成模块，用于根据第六图像帧，生成虚拟主体的第六视频数据，并将第六视频数据向加入视频会议的其他终端发送。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，并具备相应的有益效果，在此不再赘述。

图6为用来实现本申请实施例的电子设备的框图。如图6所示，该电子设备包括：存储器610和处理器620，存储器610内存储有可在处理器620上运行的计算机程序。处理器620执行该计算机程序时实现上述实施例中的方法。存储器610和处理器620的数量可以为一个或多个。

该电子设备还包括：

通信接口630，用于与外界设备进行通信，进行数据交互传输。

如果存储器610、处理器620和通信接口630独立实现，则存储器610、处理器620和通信接口630可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器610、处理器620及通信接口630集成在一块芯片上，则存储器610、处理器620及通信接口630可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(Advanced RISC Machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机访问存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机访问存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM均可用。例如，静态随机访问存储器(Static RAM，SRAM)、动态随机访问存储器(Dynamic Random Access Memory，DRAM)、同步动态随机访问存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机访问存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机访问存储器(Enhanced SDRAM，ESDRAM)、同步链接动态随机访问存储器(Sync link DRAM，SLDRAM)和直接内存总线随机访问存储器(DirectRambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生依照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中描述的或在此以其他方式描述的任何过程或方法可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中描述的或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的示例性实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请记载的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种直播数据处理方法，其特征在于，包括：

在直播主播端通过直播服务器端创建直播间的情况下，获取直播主播端实时拍摄的第一视频数据；

根据所述第一视频数据所包括的第一图像帧，获取直播主播对应于多个预设动作的多个第一动作幅度信息；

根据所述第一动作幅度信息，生成所述直播主播的动作捕捉数据；

根据所述直播主播的动作捕捉数据，生成第二图像帧；所述第二图像帧包括所述直播主体对应的虚拟主体；

根据所述第二图像帧，生成所述虚拟主体的第二视频数据，并将所述第二视频数据通过所述直播服务器端向加入直播间的直播观众端发送。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频数据所包括的第一图像帧，获取直播主播的对应于多个预设动作的多个第一动作幅度信息，包括：

获得直播主播在第一图像帧中所在的图像区域的位置信息；

根据所述位置信息和所述第一图像帧，确定多个预设的动作各自对应的第一动作幅度信息。

3.根据权利要求1或2所述的方法，其特征在于，所述多个预设动作包括多个预设脸部表情动作；所述多个预设脸部表情动作对应的第一动作幅度信息，包括各预设脸部表情动作对应的动作幅度权重数据。

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一动作幅度信息，生成所述直播主播的动作捕捉数据，包括：

对所述多个预设脸部表情动作中，至少一个预设脸部表情动作对应的动作幅度权重数据进行调整，获得调整后的动作幅度权重数据；

根据调整后的动作幅度权重数据，生成所述直播主播的动作捕捉数据。

5.根据权利要求4所述的方法，其特征在于，所述多个预设脸部动作包括多个预设脸部转动动作；所述多个预设脸部转动动作对应的第一动作幅度信息，包括各预设脸部转动动作对应的转动角度。

6.根据权利要求5所述的方法，其特征在于，所述转动角度包括四元数角度。

7.根据权利要求2所述的方法，其特征在于，所述获得直播主播在第一图像帧中的图像区域的位置信息，包括：

在能够根据所述第一图像帧和/或所述第一图像帧的前序图像帧确定所述直播主播所在的图像区域符合预设要求的情况下，获取所述直播主播所在图像区域的多个关键点的位置信息；

将所述多个关键点的位置信息作为所述直播主播所在图像区域位置信息。

8.根据权利要求7所述的方法，其特征在于，所述获得直播主播在第一图像帧中的图像区域的位置信息，包括：

在能够根据所述第一图像帧和/或所述第一图像帧的前序图像帧确定所述直播主播所在图像区域不符合预设要求的情况下，获取所述直播主播的识别框位置信息；

将所述识别框位置信息作为所述直播主播所在图像区域的位置信息。

9.根据权利要求7或8所述的方法，其特征在于，所述预设要求包括直播主播所在的图像区域中，直播主播的完整程度和/或清晰程度。

10.根据权利要求1所述的方法，其特征在于，在不能够根据所述第一图像帧和/或所述第一图像帧的前序图像帧确定所述直播主播处于视频追踪状态的情况下，停止根据所述直播主播的动作捕捉数据生成第二图像帧。

11.根据权利要求1所述的方法，其特征在于，所述根据所述第一动作幅度信息，生成所述直播主播的动作捕捉数据，包括：

根据第二动作幅度信息和所述第一动作幅度信息，对第一动作幅度信息进行调整，使得第一动作幅度信息与所述第二动作幅度信息之间的变化符合预设的变化趋势；所述第二动作幅度信息为根据直播主播在第三图像帧中所在区域的位置信息和所述第三图像帧确定的；所述第三图像帧包括所述第一图像帧在第一视频数据中的前序图像帧和/或后序图像帧；

根据调整后的第一动作幅度信息生成所述直播主播的动作捕捉数据。

12.一种视频会议数据处理方法，其特征在于，包括：

根据用户终端加入视频会议的信息，通过所述用户终端的摄像头拍摄参会用户参与视频会议的第三视频数据；

根据所述第三视频数据所包括的第三图像帧，获取所述参会用户对应于多个预设动作的多个第三动作幅度信息；

根据所述第三动作幅度信息，生成所述参会用户的动作捕捉数据；

根据所述参会用户的动作捕捉数据，生成第四图像帧；所述第四图像帧包括所述参会用户对应的虚拟主体；

根据所述第四图像帧，生成所述虚拟主体的第四视频数据，并将所述第四视频数据向加入视频会议的其他终端发送。

13.一种视频数据处理方法，其特征在于，包括：

获取实时拍摄的第五视频数据；

根据所述第五视频数据所包括的第五图像帧，获取第一目标对象对应于多个预设动作的多个第五动作幅度信息；

根据所述第五动作幅度信息，生成所述第一目标对象的动作捕捉数据；

根据所述第一目标对象的动作捕捉数据，生成第六图像帧；所述第六图像帧包括所述第一目标对象对应的虚拟主体；

根据所述第六图像帧，生成所述虚拟主体的第六视频数据，并将所述第六视频数据向加入视频会议的其他终端发送。

14.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1-13中任一项所述的方法。