CN112102451A

CN112102451A - 一种基于普通摄像头的无穿戴虚拟直播方法及设备

Info

Publication number: CN112102451A
Application number: CN202010739818.0A
Authority: CN
Inventors: 陈敏
Original assignee: Yungoal Tech Co ltd
Current assignee: Yungoal Tech Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-12-18
Anticipated expiration: 2040-07-28
Also published as: CN112102451B

Abstract

本申请公开了一种基于普通摄像头的无穿戴虚拟直播方法及设备，用以解决现有的虚拟直播方法，虚拟角色动作或表情展示不准确且无法长时间直播的技术问题。方法包括：通过骨骼点三维坐标识别网络模型确定主播脸部的若干特征点的三维坐标；确定虚拟角色脸部的若干特征点的三维坐标；计算若干特征点对应的三维坐标偏移量及骨骼夹角；基于三维坐标偏移量及骨骼夹角，通过表情骨骼重定向网络模型，确定虚拟角色脸部的若干特征点的目标三维坐标；基于目标三维坐标控制虚拟角色的表情。本申请通过上述方法实现了主播无需穿戴硬件设备就可以进行虚拟直播，满足了长时间直播的需求，且保证了虚拟角色展示动作或表情的准确性。

Description

一种基于普通摄像头的无穿戴虚拟直播方法及设备

技术领域

本申请涉及直播技术领域，尤其涉及一种基于普通摄像头的无穿戴虚拟直播方法及设备。

背景技术

随着直播技术的不断发展，很多不愿意露脸，又想从事直播行业的人，可以通过选择相应的动作捕捉设备，进行虚拟直播来达到直播愿望。

但现有的虚拟直播方法，需要主播长时间穿戴硬件设备，而这些硬件设备通常需要连接多种线缆，使得主播难以舒适的完成的多种动作，进而造成虚拟角色展现出的动作或者表情不准确；另外，这些硬件设备需要经常充电，也难以满足长时间的直播的需求。

发明内容

本申请实施例提供了一种基于普通摄像头的无穿戴虚拟直播方法及设备，用以解决现有的虚拟直播技术容易造成虚拟角色动作或表情展示不准确，以及不能满足长时间直播需求的技术问题。

第一方面，本申请实施例提供了一种基于普通摄像头的无穿戴虚拟直播方法，包括：根据骨骼点三维坐标识别网络模型，并基于与主播有关的二维平面图像数据，确定主播脸部的若干特征点，在第一预设三维坐标系下的三维坐标；计算主播脸部的若干特征点在第一预设三维坐标系下，相对于根骨骼点的三维坐标偏移量；并计算任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；在第二预设三维坐标系中，确定虚拟角色脸部的若干特征点的三维坐标；并计算虚拟角色脸部的若干特征点相对于根骨骼点的三维坐标偏移量，以及任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；基于主播脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，以及虚拟角色脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，通过表情骨骼重定向网络模型，确定虚拟角色脸部的若干特征点在第二预设三维坐标系下的目标三维坐标；将虚拟角色脸部的若干特征点调整至目标三维坐标位置，以控制虚拟角色的表情。

本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播方法，通过骨骼点三维坐标识别网络模型识别出主播脸部的若干特征点的三维坐标；然后基于三维坐标，通过表情骨骼重定向网络模型控制虚拟角色的表情，使得虚拟角色能够准确的将主播的表情展示出来，且展示的更加的自然，保证了虚拟角色真实主播表情的准确性。同时，通过神经网络模型调整虚拟角色的表情，使得主播不需要借助硬件设备就可以轻松的完成虚拟直播过程，不仅满足了长时间直播的需求，而且使主播在直播过程中可以舒适自然的完成直播表情或动作。

在本申请的一种实现方式中，主播脸部的任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角，通过以下公式确定：

α＝(α₁，α₂，α₃)＝(x₁-x₂，y₁-y₂，z₁-z₂)

β＝(β₁，β₂，β₃)＝(x₃-x₂，y₃-y₂，z₃-z₂)

其中，(x₁，y₁，z₁)为第一特征点的三维坐标；(x₂，y₂，z₂)为第二特征点的三维坐标；(x₃，y₃，z₃)为第三特征点的三维坐标；α表示第一特征点与第二特征点之间的第一骨骼的三维坐标；β表示第二特征点与第三特征点之间的第二骨骼的三维坐标；_r表示第一骨骼对应的单位向量；θ表示第二骨骼与第一骨骼之间的骨骼夹角；第一特征点与第二特征点相邻，第二特征点与第三特征点相邻。

在本申请的一种实现方式中，方法还包括：将骨骼夹角θ通过以下公式转换成四元数Q；

其中，θ＝(θ₀,θ₁,θ₂)；Q＝(Q₀,Q₁,Q₂,Q₃)。

本申请实施中将骨骼夹角θ转换为四元数Q表示，四元数Q用来表示三维空间里的角度，与欧拉角是等价的，但是避免了欧拉角表示法中的万向锁问题，更加准确的表示三维空间中的夹角角度。

在本申请的一种实现方式中，在根据骨骼点三维坐标识别网络模型，确定主播脸部的若干特征点在第一预设三维坐标系下的三维坐标之前，方法还包括：采集若干与人体有关的二维平面图像数据，构建第一训练数据集；对第一训练数据集内容进行筛选，剔除不包含人体所有关节点及特征点的图像数据，得到第二训练数据集；将第二训练数据输入至神经网络模型中，以对其进行训练；训练直至输出收敛，得到骨骼点三维坐标识别网络模型。

在本申请的一种实现方式中，骨骼点三维坐标识别网络模型中包括高斯热图层及高斯热图归一化层；高斯热图层用于接收卷积层输出的特征数据，并基于特征数据，得到尺寸为(N,W,H,D)的高斯热图；其中，N为所述主播脸部的若干特征点的总数目，W为高斯热图的宽度，H为高斯热图的高度，D为高斯热图的深度；高斯热图归一化层用于通过以下公式对尺寸为(N,W,H,D)的高斯热图进行归一化处理：

其中，G为高斯热图；

为归一化后的高斯热图。

在本申请的一种实现方式中，骨骼点三维坐标识别网络模型中还包括三维坐标输出层；三维坐标输出层用于接收归一化后的高斯热图，并通过以下公式输出主播脸部的若干特征点在第一预设三维坐标系下的三维坐标：

其中，

表示第n个特征点的x轴的坐标；

表示第n个特征点的y轴的坐标；

表示第n个特征点的z轴的坐标；

为第n个特征点对应的归一化后的高斯热图；W为

的宽度；H为

的高度；D为

的深度。

在本申请的一种实现方式中，表情骨骼重定向网络模型包括数据输入层、卷积层、目标三维坐标输出层；其中，数据输入层用于将主播脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，以及虚拟角色脸部的若干特征点对应的三维坐标偏移量及骨骼夹角输入至表情骨骼重定向网络模型中；卷积层用于接收数据输入层的输出数据，并对输出数据进行卷积、填补及抽样操作，以得到输出数据对应的特征数据；目标三维坐标输出层用于接收特征数据，并对其进行非线性变换后，输出虚拟角色脸部的若干特征点在第二预设三维坐标系下的目标三维坐标。

本申请实施例中，根据主播脸部的若干特征点对应的三维坐标表偏移量及骨骼夹角，通过表情骨骼重定向网络模型控制虚拟角色的表情，使得虚拟角色展示出来的表情更加准确、自然。保证了虚拟角色在直播过程中展示主播表情的准确性。

在本申请的一种实现方式中，方法还包括：根据骨骼点三维坐标识别网络模型，确定主播的身体及手部的若干关节点在第一预设三维坐标系下的三维坐标；计算主播的身体及手部的若干关节点在第一预设三维坐标系下，相对于根骨骼点的三维坐标偏移量；并计算任意两个相邻关节点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；其中，根骨骼点为所述主播身体的盆骨点；在第二预设三维坐标系中，确定虚拟角色的身体及手部的若干关节点的三维坐标，并计算虚拟角色的身体及手部的若干关节点在第二预设三维坐标系下，相对于根骨骼点的三维坐标偏移量，以及任意两个相邻关节点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；其中，第一预设三维坐标系是以主播身体的盆骨点为原点建立的右手坐标系；第二预设三维坐标系是以虚拟角色身体的盆骨点为原点建立的右手坐标系；基于主播的身体及手部的若干关节点对应的三维坐标偏移量以及骨骼夹角，以及虚拟角色的身体及手部的若干关节点对应的三维坐标偏移量以及骨骼夹角，通过动作骨骼重定向网络模型确定虚拟角色的身体及手部的若干关节点在第二预设三维坐标系下的目标三维坐标；将虚拟角色的身体及手部的若干关节点调整至目标三维坐标位置，以控制虚拟角色的动作。

本申请实施例中，通过骨骼点三维坐标识别网络模型，识别主播身体及及手部的若干关节点的三维坐标，并基于三维坐标，确定主播身体及手部的若干关节点对应的三维坐标偏移量及骨骼夹角。然后通过动作骨骼重定向网络模型控制虚拟角色的动作。使得虚拟角色能够更加准确的展示主播的动作，进而保证了虚拟角色展示主播动作的准确性。同时，不需要主播穿戴硬件设备就能识别出主播身体及手部的若干关节点的三维坐标，也不需要通过特定的摄像机获取主播有关的深度图像，而是直接通过深度学习神经网络模型，识别普通二维平面图像中主播身体及手部的若干关节点，使得主播在直播过程中可以舒适的完成直播动作，保证了主播进行直播过程的舒适性及便利性；而且也降低了虚拟直播的成本。

在本申请的一种实现方式中，动作骨骼重定向网络模型包括数据输入层、卷积层、目标三维坐标输出层；其中，数据输入层用于将主播的身体及手部的若干关节点对应的三维坐标偏移量及骨骼夹角，以及虚拟角色的身体及手部的若干关节点对应的三维坐标偏移量及骨骼夹角输入至动作骨骼重定向网络模型中；卷积层用于接收数据输入层的输出数据，并对输出数据进行卷积、填补及抽样操作，以得到输出数据对应的特征数据；目标三维坐标输出层用于接收特征数据，并对其进行非线性变换后，输出虚拟角色的身体及手部的若干关节点在第二预设三维坐标系下的目标三维坐标。通过动作骨骼重定向网络模型，将主播的身体及手部的若干关节点对应的动作，重定向到虚拟角色身上，保证了虚拟角色展示主播动作的准确性。

第二方面，本申请实施例还提供了一种基于普通摄像头的无穿戴虚拟直播设备。设备包括：处理器；及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行上述的一种基于普通摄像头的无穿戴虚拟直播方法。

第三方面，本申请实施例还提供了一种基于普通摄像头的无穿戴虚拟直播装置，包括获取模块，用于实时获取与主播有关的二维平面图像数据；识别模块，用于将二维平面图像数据输入至骨骼点三维坐标识别网络模型中，以识别出主播的身体及手部的若干关节点，以及主播脸部的若干特征点，在第一预设三维坐标系中的三维坐标；控制模块，用于基于主播的身体及手部的若干关节点分别对应的三维坐标，通过动作骨骼重定向网络模型，控制虚拟角色的动作；以及用于基于主播脸部的若干特征点分别对应的三维坐标，通过表情骨骼重定向网络模型，控制虚拟角色的表情。

第四方面，本申请实施例还提供了一种存储介质，存储介质为非易失性计算机可读存储介质；非易失性计算机可读存储介质存储有至少一个程序，每个程序包括指令，指令当被具有处理器的设备执行时使设备执行如上述的一种基于普通摄像头的无穿戴虚拟直播方法。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播方法流程图；

图2为本申请实施例提供的一种人身体关节点的分布示意图；

图3为本申请实施例提供的一种人手部关节点的分布示意图；

图4为本申请实施例提供的一种人脸部特征点的分布示意图；

图5为本申请实施例提供的一种骨骼点三维坐标识别网络模型结构示意图；

图6为本申请实施例提供的一种动作骨骼重定向网络模型结构示意图；

图7为本申请实施例提供的一种表情骨骼重定向网络模型结构示意图；

图8为本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播设备内部结构示意图；

图9为本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播装置内部结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着直播技术的发展，很多不愿意露脸出镜，又想从事主播行业的人，可以通过选择使用动作捕捉设备，进行虚拟直播来达成愿望。

现有技术中，主播选择虚拟角色之后，在主播直播的过程中，主播通常需要长时间穿戴硬件动作捕捉设备进行直播表演。这类硬件动作捕捉设备通过各种传感器来捕捉主播的若干骨骼点的三维坐标。对于若干骨骼点中任一骨骼点，主播端根据该骨骼点的三维坐标，调整该虚拟角色相应骨骼点的坐标，以使直播界面上显示的虚拟角色的动作和该主播的动作同步。

但由于硬件动作捕捉设备穿戴并不方便，通常需要连接多种线缆，因此主播难以舒适的完成各类动作；再加上根据主播任一骨骼点的坐标调整虚拟角色相应骨骼点的坐标，容易造成虚拟角色展示出来的动作不准确。而且，一些无线的硬件动作捕捉设备又需要经常充电，不能满足较长时间的直播活动。

为解决上述技术问题，本申请实施例提供了一种基于普通摄像头的无穿戴虚拟直播方法及设备，主播不需要穿戴硬件设备就可以完成虚拟直播过程，不仅保证了虚拟角色动作展示的准确性，而且还可以满足长时间直播的需求。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

图1为本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播方法流程图。如图1所示，本申请实施例提供的虚拟直播方法包括以下步骤：

步骤101、获取与主播有关的二维平面图像数据。

本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播方法应用于通过虚拟角色进行直播的场景中。当主播开始进行虚拟直播时，可以选择直播设备提供的若干个虚拟角色中的任一个，作为此次直播的虚拟角色。

进一步地，当主播选择完虚拟角色后，图像采集设备采集与主播相关的二维平面图像数据，并将该图像数据上传至服务器。

在本申请的一个实施例中，采集与主播有关的图像数据的图像采集设备可以是外置的独立的图像采集设备，例如，摄像机；也可以是电脑等直播设备上携带的摄像头。

在本申请的另一实施例中，主播有关二维平面图像数据是通过普通摄像头采集到的。

本领域技术人员可以明确的是，虚拟直播技术中，可以通过特定的相机采集图像数据，然后基于该图像数据确定人体骨骼点的三维坐标。本申请实施例中，为降低直播成本，可使用普通相机采集主播的二维平面图像数据，该普通相机采集的图像数据为普通的RGB二维图像数据，服务器并不能根据该二维平面图像直接识别出主播身体若干骨骼点的三维坐标。

步骤102、将二维平面图像输入至骨骼点三维坐标识别网络模型中，识别出主播的身体及手部的若干关节点，以及主播脸部的若干特征点的三维坐标。

主播在进行虚拟直播的过程中，当主播的动作或者表情发生变化时，主播的身体及手部的若干关节点，以及主播脸部的若干特征点会相应的发生变化。因此，为保证虚拟角色与主播的动作和/或表情一致，在获取到二维平面图像之后，需要从图像中识别出主播的身体及手部的若干关节点，以及主播脸部的若干特征点的三维坐标。

关节点和/或特征点是指在人体运动时位置发生变化的关键点。其中，人身体的关节点分布示意图如图2所示。人手部的关节点分布示意图如图3所示。人脸部的特征点分布示意图如图4所示。

图2为本申请实施例提供的一种人身体关节点的分布示意图。如图2所示，人身体上主要包括22个关节点。例如：头骨点，颈骨点，左肩点，右肩点，左肘点，右肘点，左腕点，右腕点，脊椎点，盆骨点，左髋点，右髋点，左膝点，右膝点，左踝点，右踝点，左脚点，右脚点等。

图3为本申请实施例提供的一种人手部关节点的分布示意图。如图3所示，单只人手上包括15个关节点，左右双手共30个关节点。例如：左大拇指(近端指骨点，中间指骨点，远端指骨点)；左食指(近端指骨点，中间指骨点，远端指骨点)；左中指(近端指骨点，中间指骨点，远端指骨点)；左无名指(近端指骨点，中间指骨点，远端指骨点)；左小拇指(近端指骨点，中间指骨点，远端指骨点)等。

图4为本申请实施例提供的一种人脸部特征点的分布示意图。如图4所示，人脸部有68个特征点。例如：左眉点，右眉点，左眼点，右眼点，鼻梁点，左鼻翼点，右鼻翼点，上嘴唇点，下嘴唇点等。将与主播有关的二维平面图像输入至骨骼点三维坐标识别网络模型中，识别出人体120个关节点和/或特征点在第一预设三维坐标系下的三维坐标。

本领域技术人员可以明确的是，骨骼点三维坐标识别网络模型也可以识别人体部分关节点和/或特征点的三维坐标。在实际应用时可根据实际需求作适当调整，本申请实施例对此不作限定。

需要说明的是，本申请实施例提供的人身体及手部的关节点分布示意图，以及人脸部的特征点分布示意图仅为一种示例性分布示意图。本领域技术人员在具体使用时，可以有其他的分布性示意图，本申请实施例对此不做限定。

在本申请的一个实施例中，在将二维平面图像输入至骨骼点三维坐标识别网络模型之前，首先对骨骼点三维坐标识别网络模型进行训练，具体如下：

采集若干与人体有关的二维平面图像数据，构建第一训练数据集；然后对第一训练数据集内容进行筛选，剔除不包含人体所有关节点及特征点的图像数据，得到第二训练数据集。将第二训练数据输入至神经网络模型中，以对其进行训练；训练直至输出收敛，得到骨骼点三维坐标识别网络模型。

骨骼点三维坐标识别网络模型通过分析二维平面图像，识别出主播身体及手部的若干关节点，以及主播脸部的若干特征点的三维坐标。具体实现方式如下：

骨骼点三维坐标识别网络模型内部包括若干种层，如图5所示。

图5为本申请实施例提供的一种骨骼点三维坐标识别网络模型结构示意图。如图5所示，骨骼点三维坐标识别网络模型包括：数据输入层，用于将获取到的二维平面图像输入至骨骼点三维坐标识别网络模型中。卷积层，接收来自数据输入层的输出，并执行卷积、填补、采样和非线性变化操作。

本领域技术人员可以明确的是，卷积层执行的卷积、填补、采样和非线性变换等操作，均可以通过现有神经网络模型的卷积层实现，本申请实施例在此不做赘述。

进一步地，本申请实施例中的骨骼点三维坐标识别网络模型在卷积层之后还包括高斯热图层，用于接收最后一个卷积层的输出，并得到尺寸为(N,W,H,D)的高斯热图。其中，N为关节点和/或特征点的数目；W为高斯热图的宽度；H为高斯热图的高度；D为高斯热图的深度。

进一步地，在高斯热图层之后还包括高斯热图归一化层，用于接收高斯热图层的输出，并通过以下公式对高斯热图进行归一化处理：

其中，G为高斯热图；

为归一化后的高斯热图。

更进一步地，在得到归一化之后的高斯热图之后，骨骼点三维坐标识别网络模型通过坐标输出层输出主播身体及手部的若干关节点，以及主播脸部的若干特征点在第一预设三维坐标系下的三维坐标。

坐标输出层接收来自高斯热图归一化层的输出，并通过以下公式计算得到主播身体及手部的若干关节点，以及主播脸部的若干特征点分别对应的三维坐标：

其中，

表示第n个关节点/特征点的x轴的坐标；

表示第n个关节点/特征点的y轴的坐标；

表示第n个关节点/特征点的z轴的坐标；

为第n个关节点/特征点对应的归一化后的高斯热图；W为

的宽度；H为

的高度；D为

的深度。

在本申请的一个实施例中，高斯热图层输出的高斯热图中包括若干个光斑，且每个光斑对应于主播身体及手部的若干关节点、及主播脸部的若干特征点中的一个关节点/特征点。在对高斯热图进行归一化处理后，每个光斑对应于一个归一化处理之后的高斯热图，且每一个归一化之后的高斯热图对应于主播身体及手部的若干关节点中的一个关节点，或者对应于主播脸部的若干特征点中的一个特征点。

在本申请的一个实施例中，骨骼点三维坐标识别网络模型可以为一个整体网络，也可以分为身体、手部、脸部三个单独网络或者三者中的某种组合(身体手部网络、脸部网络等)。

进一步地，骨骼点三维坐标识别网络模型中，将捕捉到的二维RGB图像进行归一化处理，之后获得4种下采样分辨率的特征图(1x、2x、4x、以及8x)，通过在高分辨率特征图主干网络逐渐并行加入低分辨率特征图分支网络，包含一个主干网络和三个并行的分支网络，并行的分支网络分辨率逐渐降低到一半，相应的宽度(通道的数量)增加到原来的两倍。其中，主干部分获得1x下采样分辨率的特征图，第一分支网络部分获得2x下采样分辨率的特征图，第二分支网络部分获得4x下采样分辨率的特征图，第三分支网络部分获得8x下采样分辨率的特征图。并且在不同主干、分支网络之间实现多尺度融合与特征提取，并行连接分支网络，通过重复融合由高到低的子网络产生的表示来生成可靠的高分辨率表示，来获取空间精确的高斯热图估计。

至此，得到主播的身体及手部的若干关节点，及主播脸部的若干特征点在第一预设三维坐标系中的三维坐标。

步骤103、基于主播的身体及手部的若干关节点的三维坐标，通过动作骨骼重定向网络模型，控制虚拟角色的动作。

在得到主播的身体及手部的若干关节点对应的三维坐标，以及主播脸部的若干特征点对应的三维坐标之后，通过动作骨骼重定向网络模型将主播的动作重定向到虚拟角色，以及通过表情骨骼重定向网络模型将主播的表情重定向到虚拟角色，以使虚拟角色的动作、表情随主播的动作、表情进行变化。

基于主播的身体及手部的若干关节点的三维坐标，通过动作骨骼重定向网络模型，控制虚拟角色的动作。其具体的实现方式如下：

首先，在第一预设三维坐标系中确定主播的身体及手部的若干关节点相对于根骨骼点的三维坐标偏移量，以及任意两个关节点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角。

在本申请的一个实施例中，根骨骼点为主播身体的盆骨点。将盆骨点作为根骨骼点，通过以下方法计算主播身体及手部的各个关节点相对于根骨骼点在第一预设三维坐标系中的三维坐标偏移量：

S_n(x_n-x₀，y_n-y₀，z_n-z₀)，n∈(1，N)

其中，根骨骼点的坐标为V₀(x₀，y₀，z₀)，主播身体及手部的任一关节点的坐标为V_n(x_n，y_n，z_n)。N为主播身体及手部的若干关节点的总数量。

需要说明的是，本领域技术人员可根据实际需要，选择主播身体的其他骨骼点作为主播身体及手部的若干关节点的根骨骼点，本申请实施例对此不作限定。

在本申请的一个实施例中，确定主播身体及手部的若干关节点中的任意两个相邻关节点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角，通过以下公式实现：

α＝(α₁，α₂，α₃)＝(x₁-x₂，y₁-y₂，z₁-z₂)

β＝(β₁，β₂，β₃)＝(x₃-x₂，y₃-y₂，z₃-z₂)

其中，(x₁，y₁，z₁)为第一关节点的三维坐标；(x₂，y₂，z₂)为第二关节点的三维坐标；(x₃，y₃，z₃)为第三关节点的三维坐标。

进一步地，α表示第一关节点与第二关节点之间的第一骨骼的三维坐标；β表示第二关节点与第三关节点之间的第二骨骼的三维坐标；r表示第一骨骼对应的单位向量；θ表示第二骨骼与第一骨骼之间的骨骼夹角；

更进一步地，第一关节点与第二关节点相邻，第二关节点与第三关节点相邻。

在本申请的另一实施例中，在确定主播的身体及手部的若干关节点对应的骨骼夹角之后，将骨骼夹角角θ通过以下公式转换成四元数Q；

其中，θ＝(θ₀,θ₁,θ₂)；Q＝(Q₀,Q₁,Q₂,Q₃)。四元数Q是可以用于表示三维空间里的旋转。它与欧拉角是等价的，但是避免了欧拉角表示法中的万向锁问题。

然后，在第二预设三维坐标系中确定虚拟角色的身体及手部的若干关节点的三维坐标；并通过预设方式计算得到虚拟角色身体及手部的各个关节点相对于根骨骼点的三维坐标偏移量，以及任意两个相邻关节点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角。

在本申请的一个实施例中，虚拟角色的身体及手部的若干关节点的根骨骼点为虚拟角色身体的盆骨点。

在本申请的另一实施例中，第一预设三维坐标系是以主播身体的盆骨点为原点建立的右手坐标系。第二预设三维坐标系是以虚拟角色身体的盆骨点为原点建立的右手坐标系。

进一步地，在确定主播的身体及手部的若干关节点相对于根骨骼点在第一预设三维坐标系中的三维坐标偏移量，及任意两个相邻关节点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角；以及虚拟角色的身体及手部的若干关节点相对于根骨骼点在第二预设三维坐标系中的三维坐标偏移量，及以及任意两个相邻关节点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角之后，将所有的三维坐标偏移量、骨骼夹角以及虚拟角色的三维坐标，全部输入至动作骨骼重定向网络模型中，以得到虚拟角色的身体及手部的若干关节点在第二预设三维坐标系中的目标三维坐标。动作骨骼重定向网络模型内部结构如图6所示。

图6为本申请实施例提供的一种动作骨骼重定向网络模型结构示意图。如图6所示，动作骨骼重定向网络模型主要包括3层结构。具体为：数据输入层、卷积层、目标三维坐标输出层。

其中，数据输入层用于将主播身体及手部的若干关节点在第一预设三维坐标系下的相对于根骨骼点的三维坐标偏移量，以及任意两个相邻关节点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；以及虚拟角色的身体及手部的若干关节点在第二预设三维坐标系下的三维坐标、相对于根骨骼点的三维坐标偏移量、以及任意两个相邻关节点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角，输入至动作骨骼重定向网络模型中。卷积层用于将输入数据进行卷积、填补、采样及非线性操作。目标三维坐标输出层整合卷积层输出的特征数据，进行非线性变换操作之后，输出虚拟角色身体及手部的若干关节点在第二预设三维坐标系下的目标三维坐标。

在本申请的一个实施例中，动作骨骼重定向网络模型中，将主播和虚拟角色的身体及手部的若干关节点分别对应的三维坐标偏移量及骨骼夹角四元数拼接为张量作为输入。其输入由两个输入分支构成，两个分支先单独通过若干次卷积Convolution、批归一化BatchNormalization、激活函数Rule对输入数据进行特征提取；然后将两个分支获得的特征图进行融合，再经过多次卷积Convolution、批归一化BatchNormalization、激活函数Rule，最终得到虚拟角色身体及手部的若干关节点在第二预设三维坐标系下的目标三维坐标。

进一步地，将虚拟角色的身体及手部的若干关节点调整至目标三维坐标的位置，进而控制虚拟角色的动作。

步骤104、基于主播的脸部的若干特征点的三维坐标，通过表情骨骼重定向网络模型，控制虚拟角色的表情。

在将虚拟角色的动作调整完成之后，基于主播的脸部的若干特征点的三维坐标，控制虚拟角色的表情。

通过表情骨骼重定向网络模型，控制虚拟角色的表情。其具体的实现方式如下：

首先，在第一预设三维坐标系中确定主播脸部的若干特征点相对于根骨骼点的三维坐标偏移量，以及任意两个特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角。

在本申请的一个实施例中，根骨骼点为主播身体的头骨点。将头骨点作为根骨骼点，通过以下方法计算主播脸部的各个特征点相对于根骨骼点在第一预设三维坐标系中的三维坐标偏移量：

S_n(x_n-x₀，y_n-y₀，z_n-z₀)，n∈(1，N)

其中，根骨骼点的坐标为V₀(x₀，y₀，z₀)，主播脸部的任一特征点的坐标为V_n(x_n，y_n，z_n)。N为主播脸部的若干特征点的总数量。

需要说明的是，本领域技术人员可根据实际需要，选择主播身体的其他骨骼点作为主播脸部的若干特征点的根骨骼点，本申请实施例对此不作限定。

在本申请的一个实施例中，确定主播脸部的若干特征点中的任意两个相邻特征点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角，通过以下公式实现：

α＝(α₁，α₂，α₃)＝(x₁-x₂，y₁-y₂，z₁-z₂)

β＝(β₁，β₂，β₃)＝(x₃-x₂，y₃-y₂，z₃-z₂)

其中，(x₁，y₁，z₁)为第一特征点的三维坐标；(x₂，y₂，z₂)为第二特征点的三维坐标；(x₃，y₃，z₃)为第三特征点的三维坐标。

进一步地，α表示第一特征点与第二特征点之间的第一骨骼的三维坐标；β表示第二特征点与第三特征点之间的第二骨骼的三维坐标；r表示第一骨骼对应的单位向量；θ表示第二骨骼与第一骨骼之间的骨骼夹角；

更进一步地，第一特征点与第二特征点相邻，第二特征点与第三特征点相邻。

在本申请的另一实施例中，在确定主播脸部的若干特征点对应的骨骼夹角之后，将骨骼夹角角θ通过以下公式转换成四元数Q；

其中，θ＝(θ₀，θ₁，θ₂)；Q＝(Q₀，Q₁，Q₂，Q₃)。

然后，在第二预设三维坐标系中确定虚拟角色脸部的若干特征点的三维坐标；并通过预设方式计算得到虚拟角色脸部的各个特征点相对于根骨骼点的三维坐标偏移量，以及任意两个相邻特征点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角。

在本申请的一个实施例中，虚拟角色脸部的若干特征点的根骨骼点为虚拟角色身体的头骨点。

进一步地，在确定主播脸部的若干特征点相对于根骨骼点在第一预设三维坐标系中的三维坐标偏移量，及任意两个相邻特征点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角；以及虚拟角色脸部的若干特征点相对于根骨骼点在第二预设三维坐标系中的三维坐标偏移量，及以及任意两个相邻特征点之间的骨骼，与其对应的上一级骨骼之间的骨骼夹角之后，将所有的三维坐标偏移量、骨骼夹角以及虚拟角色脸部的若干特征点对应的三维坐标，全部输入至表情骨骼重定向网络模型中，以得到虚拟角色脸部的若干特征点在第二预设三维坐标系中的目标三维坐标。表情骨骼重定向网络模型内部结构如图7所示。

图7为本申请实施例提供的一种表情骨骼重定向网络模型结构示意图。如图7所示，表情骨骼重定向网络模型主要包括3层结构。具体为：数据输入层、卷积层、目标三维坐标输出层。

其中，数据输入层用于将主播脸部的若干特征点在第一预设三维坐标系下的相对于根骨骼点的三维坐标偏移量，及任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；以及虚拟角色脸部的若干特征点在第二预设三维坐标系下的三维坐标相对于根骨骼点的三维坐标偏移量、以及任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角，输入至表情骨骼重定向网络模型中。卷积层用于将输入数据进行卷积、填补、采样及非线性操作。目标三维坐标输出层整合卷积层输出的特征数据，进行非线性变换操作之后，输出虚拟角色脸部的若干特征点在第二预设三维坐标系下的目标三维坐标。

在本申请的一个实施例中，表情骨骼重定向网络模型中，将主播和虚拟角色的脸部的若干特征点分别对应的三维坐标偏移量及骨骼夹角四元数拼接为张量作为输入。其输入由两个输入分支构成，两个分支先单独通过若干次卷积Convolution、批归一化BatchNormalization、激活函数Rule对输入数据进行特征提取；然后将两个分支获得的特征图进行融合，再经过多次卷积Convolution、批归一化BatchNormalization、激活函数Rule，最终得到虚拟角色脸部的若干特征点在第二预设三维坐标系下的目标三维坐标。

进一步地，将虚拟角色脸部的若干特征点调整至目标三维坐标的位置，以控制虚拟角色的表情。

至此，通过神经网络模型，实现对虚拟角色的动作及表情的控制。将调整完成的虚拟角色的动作及表情在直播界面中进行显示，进而实现虚拟直播过程。

需要说明的是，上述控制虚拟角色的动作及表情的步骤，仅为本申请实施例的一种描述方式而已，并不用于限定执行顺序。本领域技术人员可以明确的是，在实际的应用中，可以同时控制虚拟角色的动作及表情；也可以先控制表情后控制动作，然后将表情及动作同时显示，本申请实施例对此不做限定。

还需要说明的是，本申请实施例中的第一预设三维坐标系、第二预设三维坐标系，仅为针对主播、虚拟角色提出的三维坐标系，以使主播及虚拟角色在相应的坐标系下进行动作变换或者表情变化时，能够实时的获取到主播若干骨骼点的三维坐标。本领域技术人员可以明确的是，在实际的应用过程中，可以根据需求适当调整三维坐标系的原点，只需要保证能够在主播进行动作或者表情变化时，获取到若干骨骼点在该坐标系下的三维坐标即可。因此，本申请实施例对此不作限定。

基于同样的发明构思，本申请实施例还提供了一种基于普通摄像头的无穿戴虚拟直播设备，其内部结构示意图如图8所示。

图8为本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播设备内部结构示意图。如图8所示，设备包括处理器801；及存储器802，其上存储有可执行代码，当可执行代码被执行时，使得处理器801执行如上述的一种基于普通摄像头的无穿戴虚拟角色方法。

在本申请的一个实施例中，处理器801用于实时获取与主播有关的二维平面图像数据；还用于将二维平面图像数据输入至骨骼点三维坐标识别网络模型中，以识别出主播的身体及手部的若干关节点，及主播脸部的若干特征点，在第一预设三维坐标系中的三维坐标；以及用于基于主播的身体及手部的若干关节点分别对应的三维坐标，通过动作骨骼重定向网络模型，控制虚拟角色的动作；以及用于基于主播脸部的若干特征点分别对应的三维坐标，通过表情骨骼重定向网络模型，控制虚拟角色的表情。

在本申请的另一实施例中，处理器801用于根据骨骼点三维坐标识别网络模型，并基于与主播有关的二维平面图像数据，确定主播脸部的若干特征点，在第一预设三维坐标系下的三维坐标；以及用于计算主播脸部的若干特征点在第一预设三维坐标系下，相对于根骨骼点的三维坐标偏移量；还用于计算任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；还用于在第二预设三维坐标系中，确定虚拟角色脸部的若干特征点的三维坐标，并计算虚拟角色脸部的若干特征点相对于根骨骼点的三维坐标偏移量，以及任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；还用于基于主播脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，以及虚拟角色脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，通过表情骨骼重定向网络模型，确定虚拟角色脸部的若干特征点在第二预设三维坐标系下的目标三维坐标；还用于将虚拟角色脸部的若干特征点调整至目标三维坐标位置，以控制虚拟角色的表情。

基于同样的发明构思，本申请实施例还提供了一种基于普通摄像头的无穿戴虚拟直播装置，其内部结构示意图如图9所示。

图9为本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播装置内部结构示意图。如图9所示，装置包括：获取模块901，用于实时获取与主播有关的二维平面图像数据；识别模块902，用于将二维平面图像数据输入至骨骼点三维坐标识别网络模型中，以识别出主播的身体及手部的若干关节点，及主播脸部的若干特征点在第一预设三维坐标系中的三维坐标；控制模块903，用于基于主播的身体及手部的若干关节点分别对应的三维坐标，通过动作骨骼重定向网络模型，控制虚拟角色的动作；控制模块903还用于基于主播脸部的若干特征点分别对应的三维坐标，通过表情骨骼重定向网络模型，控制虚拟角色的表情。

基于同样的发明构思，本申请实施例还提供了一种存储介质，存储介质为非易失性计算机可读存储介质；非易失性计算机可读存储介质存储有至少一个程序，每个程序包括指令，指令当被具有处理器的设备执行时使设备执行如上述的一种基于普通摄像头的无穿戴虚拟直播方法。

本申请实施例提供的一种基于普通摄像头的无穿戴虚拟直播方法及设备，在主播的直播过程中，一个或者多个图像采集设备采集与主播有关的二维平面图像，根据采集到的平面图像调整显示在直播界面中的虚拟角色的动作及表情；本申请实施例通过神经网络模型获取主播的若干骨骼点的三维坐标，然后根据主播的身体及手部的若干关节点，及主播脸部的若干特征点，通过深度学习神经网络模型将主播的动作及表情重定向到虚拟角色，以使虚拟角色展示出来的动作及表情更加接近于主播的动作及表情，保证了虚拟角色展示动作及表情的准确性。同时，通过本申请实施例提供的虚拟直播方法或者设备进行虚拟直播时，主播不需要穿戴硬件设备，减轻了主播直播时的负担，保证了主播直播的舒适性以及便利性，而且也避免了硬件设备需要充电而造成直播时长受限的问题，满足了主播长时间直播的需求。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备、装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述方法包括：

根据骨骼点三维坐标识别网络模型，并基于与主播有关的二维平面图像数据，确定主播脸部的若干特征点，在第一预设三维坐标系下的三维坐标；

计算所述主播脸部的若干特征点在第一预设三维坐标系下，相对于根骨骼点的三维坐标偏移量；并计算任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；

在第二预设三维坐标系中，确定虚拟角色脸部的若干特征点的三维坐标；并计算所述虚拟角色脸部的若干特征点相对于根骨骼点的三维坐标偏移量，以及任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；

基于所述主播脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，以及所述虚拟角色脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，通过表情骨骼重定向网络模型，确定所述虚拟角色脸部的若干特征点在第二预设三维坐标系下的目标三维坐标；

将所述虚拟角色脸部的若干特征点调整至所述目标三维坐标位置，以控制所述虚拟角色的表情。

2.根据权利要求1所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述主播脸部的任意两个相邻特征点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角，通过以下公式确定：

α＝(α₁,α₂,α₃)＝(x₁-x₂,y₁-y₂,z₁-z₂)

β＝(β₁,β₂,β₃)＝(x₃-x₂,y₃-y₂,z₃-z₂)

其中，(x₁,y₁,z₁)为第一特征点的三维坐标；(x₂,y₂,z₂)为第二特征点的三维坐标；(x₃,y₃,z₃)为第三特征点的三维坐标；

α表示第一特征点与第二特征点之间的第一骨骼的三维坐标；β表示第二特征点与第三特征点之间的第二骨骼的三维坐标；r表示第一骨骼对应的单位向量；θ表示第二骨骼与第一骨骼之间的骨骼夹角；

所述第一特征点与第二特征点相邻，所述第二特征点与第三特征点相邻。

3.根据权利要求2所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述方法还包括：

将所述骨骼夹角θ通过以下公式转换成四元数Q；

其中，θ＝(θ₀,θ₁,θ₂)；Q＝(Q₀,Q₁,Q₂,Q₃)。

4.根据权利要求1所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，在根据骨骼点三维坐标识别网络模型，确定主播脸部的若干特征点在第一预设三维坐标系下的三维坐标之前，所述方法还包括：

采集若干与人体有关的二维平面图像数据，构建第一训练数据集；

对所述第一训练数据集内容进行筛选，剔除不包含人体所有关节点及特征点的图像数据，得到第二训练数据集；

将所述第二训练数据输入至神经网络模型中，以对其进行训练；

训练直至输出收敛，得到骨骼点三维坐标识别网络模型。

5.根据权利要求4所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述骨骼点三维坐标识别网络模型中包括高斯热图层及高斯热图归一化层；

所述高斯热图层用于接收卷积层输出的特征数据，并基于所述特征数据，得到尺寸为(N,W,H,D)的高斯热图；其中，N为所述主播脸部的若干特征点的总数目，W为高斯热图的宽度，H为高斯热图的高度，D为高斯热图的深度；

所述高斯热图归一化层用于通过以下公式对所述尺寸为(N,W,H,D)的高斯热图进行归一化处理：

其中，G为高斯热图；

为归一化后的高斯热图。

6.根据权利要求4所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述骨骼点三维坐标识别网络模型中还包括三维坐标输出层；

所述三维坐标输出层用于接收归一化后的高斯热图，并通过以下公式输出所述主播脸部的若干特征点在第一预设三维坐标系下的三维坐标：

其中，

表示第n个特征点的x轴的坐标；

表示第n个特征点的y轴的坐标；

表示第n个特征点的z轴的坐标；

为第n个特征点对应的归一化后的高斯热图；W为

的宽度；H为

的高度；D为

的深度。

7.根据权利要求1所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述表情骨骼重定向网络模型包括数据输入层、卷积层、目标三维坐标输出层；

其中，所述数据输入层用于将所述主播脸部的若干特征点对应的三维坐标偏移量及骨骼夹角，以及所述虚拟角色脸部的若干特征点对应的三维坐标偏移量及骨骼夹角输入至所述表情骨骼重定向网络模型中；

所述卷积层用于接收所述数据输入层的输出数据，并对所述输出数据进行卷积、填补及抽样操作，以得到所述输出数据对应的特征数据；

所述目标三维坐标输出层用于接收所述特征数据，并对其进行非线性变换后，输出所述虚拟角色脸部的若干特征点在第二预设三维坐标系下的目标三维坐标。

8.根据权利要求1所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述方法还包括：

根据所述骨骼点三维坐标识别网络模型，确定所述主播的身体及手部的若干关节点在第一预设三维坐标系下的三维坐标；

计算所述主播的身体及手部的若干关节点在第一预设三维坐标系下，相对于根骨骼点的三维坐标偏移量；并计算任意两个相邻关节点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；其中，所述根骨骼点为所述主播身体的盆骨点；

在第二预设三维坐标系中，确定所述虚拟角色的身体及手部的若干关节点的三维坐标，并计算所述虚拟角色的身体及手部的若干关节点在第二预设三维坐标系下，相对于根骨骼点的三维坐标偏移量，以及任意两个相邻关节点之间的骨骼与其对应的上一级骨骼之间的骨骼夹角；

其中，所述第一预设三维坐标系是以所述主播身体的盆骨点为原点建立的右手坐标系；所述第二预设三维坐标系是以所述虚拟角色身体的盆骨点为原点建立的右手坐标系；

基于所述主播的身体及手部的若干关节点对应的三维坐标偏移量及骨骼夹角，以及所述虚拟角色的身体及手部的若干关节点对应的三维坐标偏移量及骨骼夹角，通过动作骨骼重定向网络模型确定所述虚拟角色的身体及手部的若干关节点在第二预设三维坐标系下的目标三维坐标；

将所述虚拟角色的身体及手部的若干关节点调整至所述目标三维坐标位置，以控制所述虚拟角色的动作。

9.根据权利要求8所述的一种基于普通摄像头的无穿戴虚拟直播方法，其特征在于，所述动作骨骼重定向网络模型包括数据输入层、卷积层、目标三维坐标输出层；

其中，所述数据输入层用于将所述主播的身体及手部的若干关节点对应的三维坐标偏移量及骨骼夹角，以及所述虚拟角色的身体及手部的若干关节点对应的三维坐标偏移量及骨骼夹角输入至所述动作骨骼重定向网络模型中；

所述目标三维坐标输出层用于接收所述特征数据，并对其进行非线性变换后，输出所述虚拟角色的身体及手部的若干关节点在第二预设三维坐标系下的目标三维坐标。

10.一种基于普通摄像头的无穿戴虚拟直播设备，其特征在于，所述设备包括：

处理器；

及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-9任一项所述的一种基于普通摄像头的无穿戴虚拟直播方法。