CN111402399A

CN111402399A - 人脸驱动和直播方法、装置、电子设备及存储介质

Info

Publication number: CN111402399A
Application number: CN202010161751.7A
Authority: CN
Inventors: 韩欣彤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-10
Anticipated expiration: 2040-03-10
Also published as: CN111402399B

Abstract

本发明实施例公开了一种人脸驱动和直播方法、装置、电子设备及存储介质。其中，人脸驱动方法包括：获取原始图像数据，原始图像数据中具有人脸数据；获取参考图像数据，参考图像数据中具有虚拟形象；对人脸数据识别人脸关键点；通过残差链接将参考图像数据重组为目标图像数据，以将虚拟形象调整至人脸关键点所表征的姿态。本发明实施例的方案，实现了将原始人脸数据与虚拟形象进行重组，进而驱动虚拟形象，可以应用于直播等应用场景，解决了现有的人脸驱动成本较高并且灵活度较低的问题。

Description

人脸驱动和直播方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种人脸驱动和直播方法、装置、电子设备及存储介质。

背景技术

随着社会的不断发展，诸如手机、平板电脑等电子设备已经广泛应用在学习、娱乐、工作等方面，扮演着越来越重要的角色。在这些电子设备中配置有摄像头，可用于拍照、录像或者直播等应用。

在直播、AR(Augmented Reality，增强现实)、制作表情等应用中，识别当前用户的人脸状态，从而驱动另一个人脸表达该人脸状态。

但是，现有的人脸驱动方法需要依赖美工设计3D(3-Dimensional，三维)虚拟形象的以及为用户配置动作捕捉设备捕捉用户的动作，才能实现根据用户的动作驱动3D虚拟形象。这种人脸驱动方式，成本较高并且灵活度较低。

发明内容

本发明实施例提供一种人脸驱动和直播方法、装置、电子设备及存储介质，以解决现有的人脸驱动成本较高并且灵活度较低的问题。

第一方面，本发明实施例提供了一种人脸驱动方法，该方法包括：

获取原始图像数据，所述原始图像数据中具有原始人脸数据；

获取参考图像数据，所述参考图像数据中具有虚拟形象；

对所述原始人脸数据识别原始人脸关键点；

通过残差链接将所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述原始人脸关键点所表征的姿态。

第二方面，本发明实施例还提供了一种直播方法，该方法包括：

接收主播客户端上传的原始直播数据，所述原始直播数据中具有视频数据，所述视频数据的原始图像数据中具有主播用户的原始人脸数据；

确定所述主播客户端选定的参考图像数据，所述参考图像数据中具有虚拟形象；

对每帧所述原始图像数据中的所述原始人脸数据识别原始人脸关键点；

通过残差链接将每帧所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述原始人脸关键点所表征的姿态；

根据所述目标图像数据生成目标直播数据；

在所述主播用户关联的直播间中发布所述目标直播数据。

第三方面，本发明实施例还提供了一种直播方法，该方法包括：

在观众客户端登录直播间时，接收服务器发送的原始直播数据，所述原始直播数据中具有原始人脸关键点，所述原始人脸关键点提取自面对主播用户采集的视频数据；

确定所述观众客户端选定的参考图像数据，所述参考图像数据中具有虚拟形象；

在所述直播间的页面中播放包含所述目标图像数据的视频数据与所述音频数据。

第四方面，本发明实施例还提供了一种人脸驱动装置，该装置包括：

原始图像数据获取模块，用于获取原始图像数据，所述原始图像数据中具有原始人脸数据；

参考图像数据获取模块，用于获取参考图像数据，所述参考图像数据中具有虚拟形象；

人脸关键点识别模块，用于对所述原始人脸数据识别人脸关键点；

目标图像数据重组模块，用于通过残差链接将所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述原始人脸关键点所表征的姿态。

第五方面，本发明实施例还提供了一种直播装置，该装置包括：

原始直播数据接收模块，用于接收主播客户端上传的原始直播数据，所述原始直播数据中具有视频数据，所述视频数据的原始图像数据中具有主播用户的原始人脸数据；

参考图像数据确定模块，用于确定所述主播客户端选定的参考图像数据，所述参考图像数据中具有虚拟形象；

人脸关键点识别模块，用于对每帧所述原始图像数据中的所述原始人脸数据识别人脸关键点；

目标图像数据重组模块，用于通过残差链接将每帧所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述原始人脸关键点所表征的姿态；

目标直播数据生成模块，用于根据所述目标图像数据生成目标直播数据；

目标直播数据发布模块，用于在所述主播用户关联的直播间中发布所述目标直播数据。

第六方面，本发明实施例还提供了一种直播装置，该装置包括：

原始直播数据接收模块，用于在观众客户端登录直播间时，接收服务器发送的原始直播数据，所述原始直播数据中具有原始人脸关键点，所述原始人脸关键点提取自面对主播用户采集的视频数据；

参考图像数据确定模块，用于确定所述观众客户端选定的参考图像数据，所述参考图像数据中具有虚拟形象；

音视频数据播放模块，用于在所述直播间的页面中播放包含所述目标图像数据的视频数据与音频数据。

第七方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的人脸驱动方法、第二方面或者第三方面所述的直播方法。

第八方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如第一方面所述的人脸驱动方法、第二方面或者第三方面所述的直播方法。

本发明实施例中，分别获取原始人脸数据和虚拟形象，并对原始人脸数据识别原始人脸关键点，通过残差链接将参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态，其中，获取的虚拟形象数据可以为任意一种图像数据，并不限制于需要美工设计的3D虚拟形象，解决了现有的人脸驱动方法需要依赖美工进行3D虚拟形象设计的问题，可以实现对任意虚拟形象的驱动；通过人脸关键点检测以及残差链接即可实现对虚拟形象的驱动，无需通过动作捕捉设备捕捉用户的动作，降低了成本；同时，在网络中加入残差链接，解决了网络训练过程中梯度消失和梯度爆炸的问题，无需增加网络的层数，也可以得到精确的训练结果，适用于直播等应用场景。

附图说明

图1是本发明实施例一提供的一种人脸驱动方法的流程图；

图2是本发明实施例一提供的一种残差网络的结构示意图；

图3是本发明实施例一提供的一种U型的神经网络的结构示意图；

图4为本发明实施例二提供的一种直播方法的流程图；

图5是本发明实施例二提供的一种直播方法的流程图；

图6是本发明实施例二提供的一种主播用户驱动虚拟形象图像进行虚拟直播的过程的示意图；

图7是本发明实施例三提供的一种直播方法的流程图；

图8是本发明实施例四提供的一种人脸驱动装置的结构示意图；

图9是本发明实施例五提供的一种直播装置的结构示意图；

图10是本发明实施例六提供的一种直播装置的结构示意图；

图11为本发明实施例七提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种人脸驱动方法的流程图，本实施例可适用于基于残差链接将参考图像数据进行重组，从而驱动人脸的情况，该方法可以由人脸驱动装置来执行，该装置可以由软件和/或硬件实现，可配置在电子设备中，可以包括手机、平板、PDA(personal digital assistant，个人数字助理)、智能穿戴设备(如智能眼镜、智能手表)等移动终端，也可以包括服务器、工作站、智能电视、个人电脑等非移动终端，该方法具体包括如下步骤：

S101、获取原始图像数据，原始图像数据中具有原始人脸数据。

在具体实现中，电子设备的操作系统可以为Android(安卓)、IOS或者Windows等等。在这些操作系统中支持运行可进行图像处理的应用，如直播应用、图像编辑应用、相机应用、即时通讯工具、图库应用，等等。

诸如直播应用、图像编辑应用、相机应用、即时通讯工具等应用，其UI(UserInterface，用户界面)可提供拍照、录像的控件，用户可通过触控或鼠标等外设操作该拍照、录像的控件，通知应用调用摄像头采集图像数据，作为原始图像数据。

需要说明的是，本发明实施例中涉及到的原始图像数据中包括用户原始人脸数据，一般而言，该用户原始人脸数据为真实用户的人脸数据，其中，在直播应用中用户可以为主播，也可以为观众，本发明实施例中对此不加以限制。

S102、获取参考图像数据，参考图像数据中具有虚拟形象。

诸如直播应用、图像编辑应用、即时通讯工具、图库应用等应用，其UI可提供导入的控件，用户可通过触控或鼠标等外设操作该导入的控件，选择本地存储的图像数据(以缩略图或路径表示)，也可以选择网络存储的图像数据(以URL(Uniform Resource Locators，统一资源定位器)表示)，也可以选择应用中存储的图像数据，使得应用获取该图像数据，作为参考图像数据。

需要说明的是，本发明实施例中涉及到的参考图像数据中具有虚拟形象，其中，虚拟形象可以为卡通形象，也可以为人物形象。示例性的，卡通形象可以为动漫中的人物形象、拟人化的小动物形象或者通话故事中的人物形象等；人物形象可以为知名油画中的人物形象，本发明实施例中对此不加以限制。

还需说明的是，本发明实施例中涉及到的虚拟形象可以为任意形象的单张图像，无需对其进行3D设计，可以降低成本。

S103、对原始人脸数据识别原始人脸关键点。

原始图像数据中具有原始人脸数据，所谓原始人脸数据，可以指原始图像数据中用于表示人脸的像素点。

在本发明实施例中，应用对该原始人脸数据进行人脸检测，识别原始人脸数据中包含的原始人脸关键点。

需要说明的是，本发明实施例中，将识别到的多个人脸关键点进行连接，即可得到原始人脸的结构化信息。

其中，人脸检测也称为人脸关键点检测、定位或者人脸对齐，是指给定人脸数据，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等等。

人脸检测通常使用如下方法：

1、利用人工提取特征，如haar特征，使用特征训练分类器，使用分类器进行人脸检测。

2、从通用的目标检测算法中继承人脸检测，例如，利用Faster R-CNN来检测人脸。

3、使用级联结构的卷积神经网络，例如，Cascade CNN(级联卷积神经网络)，MTCNN(Multi-task Cascaded Convolutional Networks，多任务卷积神经网络)。

在具体实现中，这些实现人脸检测的方法可以集成在应用的模块中，应用可直接调用该模块检测原始人脸数据中的原始人脸关键点；这些实现人脸检测的方法也可以集成在SDK(Software Development Kit，软件开发工具包)中，该SDK作为应用的组装数据，应用可请求SDK对原始人脸数据进行人脸检测，SDK检测到原始人脸数据中的原始人脸关键点，并将原始人脸关键点返回应用。

需要说明的是，原始人脸关键点的数量，可以由本领域技术人员根据实际情况设置，对于静态的图像处理，实时性要求较低，可以检测较为稠密的原始人脸关键点，如1000个，除了能定位人脸重要特征点之外，还能准确的描述出五官的轮廓；对于直播等，实时性要求较高，可以检测较为稀疏的原始人脸关键点，如68、81或者96个，定位人脸上比较明显且重要的特征点(如眼睛关键点、眉毛关键点、鼻子关键点、嘴巴关键点、轮廓关键点等)，以降低处理量、减少处理时间等等，本发明实施例对此不加以限制。

S104、通过残差链接将参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

在本实施例中，可以提前训练一个含有残差连接(skip connection)的网络，其中，残差链接也被称为跳跃链接，在网络中加入残差链接可以解决训练过程中梯度消失和梯度爆炸的问题，可以有效地减少网络的层数，使训练更容易。

直观上理解，可以认为网络中、深层的梯度可以更容易的传回浅层，使得对网络的层数的设定可以更容易一些。

在具体实现中，残差链接通常在残差网络中应用。为了更好地理解本发明实施例，图2列举了一个2层的残差网络，可以将其理解为一个残差模块，主要包括：卷积层201、卷积层202以及残差链接203。其中，残差网络的输入为X，输出为G(x)，G(x)为F(x)和X的线性叠加，即G(x)＝F(x)+X。

在计算机视觉里，网络的每一层分别对应于提取不同层次的特征信息，有低层，中层和高层，而网络越深的时候，提取到的不同层次的信息会越多，而不同层次间的层次信息的组合也会越多，特征的“等级”随增网络深度的加深而变高，网络的深度是实现好的效果的重要因素，然而，梯度弥散/爆炸成为训练深层次的网络的障碍，导致无法收敛。在本实施例中，在残差网络中引入残差链接，在前向传播时，输入信号可以从任意低层直接传播到高层，由于包含了一个恒等映射，一定程度上可以解决网络退化问题，错误信号可以不经过任何中间权重矩阵变换直接传播到低层，一定程度上可以缓解梯度弥散问题，使得信息前后向传播更加顺畅，可见，可以有效地解决神经网络训练过程中梯度消失和梯度爆炸的问题，无需增加网络的层数，也可以得到精确的训练结果。

需要说明的是，本发明实施例中的目标图像数据为原始人脸数据与虚拟形象结合的图像数据，其显示的形象与虚拟形象一致，同时，其显示的姿态与原始人脸数据相同。示例性的，若虚拟形象为童话故事里面的人物，且原始人脸数据中表征的姿态为大笑，则目标图像数据表现为该童话故事里面的人物大笑；若虚拟形象为拟人化的动物，且原始人脸数据中表征的姿态为流泪，则目标图像数据表现为拟人化的动物流泪。

在本发明实施例的一个实施例中，S104可以包括如下步骤：

S1041、对虚拟形象识别参考人脸关键点。

在具体实现中，可以通过上述实现人脸检测的方法识别虚拟形象的参考人脸关键点，这些实现人脸检测的方法可以集成在应用的模块中，应用可直接调用该模块检测虚拟形象中的参考人脸关键点；这些实现人脸检测的方法也可以集成在SDK中，该SDK作为应用的组装数据，应用可请求SDK对虚拟形象进行人脸检测，SDK检测到虚拟形象中的参考人脸关键点，并将参考人脸关键点返回应用。

S1042、合并原始人脸关键点、参考人脸关键点与参考图像数据，获得候选图像数据。

在具体实现中，候选图像数据中包括：通过原始人脸数据识别到的原始人脸关键点、通过虚拟形象识别到的参考人脸关键点以及包括虚拟形象的参考图像数据。

在本发明实施例的一个具体例子中，可以将检测到的原始人脸关键点、参考人脸关键点以及参考图像数据，存储到同一存储路径下，从而获得候选图像数据。

在本发明实施例的另一个具体例子中，可以通过合并算法，将原始人脸关键点、参考人脸关键点以及参考图像数据合并至目标文件中，该目标文件即为候选图像数据。

S1043、确定U型的神经网络。

在具体实现中，获得到候选图像数据之后，可以进一步地确定U型的神经网络(U-net)，从而对候选图像数据进行训练。

U-net网络主要由两部分组成，即编码部分和解码部分，其中，编码部分可以包括卷积处理即卷积层、激活处理即激活函数与标准化处理等；解码部分可以包括上采样与卷积处理等，经过下采样的编码，得到一串比参考图像数据更小的特征，相当于压缩，然后再经过一个上采样的解码，理想状况就是能还原到参考图像数据，在这个过程当中，如果加入了原始人脸关键点，该原始人脸关键点体现在该特征中，还原参考图像数据时，虚拟形象体现该原始人脸关键点的姿态。

需要说明的是，下采样过程，即不断地缩小图像数据的尺寸的过程，示例性的，下采样处理可以包括最大池化(max pooling)、均值池化(mean pooling)和随机池化(stochastic pooling)等；上采样过程，即不断地放大图像数据的尺寸的过程，上采样处理可以包括最邻近元法、双线性内插法或者三次内插法等差值方法。具体的，卷积层是神经网络的核心层，每层卷积层都由若干个卷积单元组成，每个卷积单元的参数均是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。

使用激活函数可以为神经网络引入非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中，有利于解决非线性问题。

激活函数有以下几个性质：

(1)、非线性：非线性激活函数是网络的非线性来源，它具有多变性，可以拟合任意复杂函数的表达式。同时非线性激活函数可以准确地建立各类空间分割曲面，实现对复杂样本的区分；

(2)、连续可微性：由于训练过程是基于梯度进行参数优化的，因此需要保证参与运算的函数具有连续可微，防止在反向传播过程中网络梯度消失；

(3)、单调性：因为激活函数不能改变网络每层函数的特性，所以需要保证每层网络结构都是凸函数；

(4)、函数输出值范围有限：若激活函数输出值范围有限，即将原始输入数据分布改变在可控范围内，能够使基于梯度优化的训练过程更加有效，收敛更快，更容易得到稳定的网络模型。

标准化处理即归一化处理，在具体实现中，可以将输入网络的多个数据进行标准化处理，这样可以消除不同的数据之间的特征差异，使神经网络更容易提取到有用的特征。

为了更好地理解本发明实施例，图3列举了一种本发明实施例中确定的U型的神经网络，该U型的神经网络主要包括：第一编码网络301、第二编码网络303、第一解码网络305、第二解码网络307、第三解码网络310、第一残差网络302、第二残差网络304、第三残差网络308与第四残差网络311。图3中x可以为候选图像数据，y可以为目标图像数据。

其中，第一残差网络302、第二残差网络304、第三残差网络308与第四残差网络311均属于残差网络。

S1044、将候选图像数据输入到U型的神经网络中进行解码与编码，从而生成目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

在具体实现中，确定了如图3所示的U型的神经网络之后，可以将S1042中获得到的候选图像数据输入到该U型的神经网络中，并对候选图像数据解码与编码，即对候选图像数据进行训练，从而生成目标数据，以实现将虚拟形象调整至原始人脸关键点所表征的姿态。

在本发明实施例的一个实施例中，S1044可以包括如下步骤：

S10441、在第一编码网络中，对候选图像数据进行编码，获得第一特征数据。

在具体实现中，候选图像数据输入到如图3所示的U型的神经网络之后，第一编码网络301，对候选图像数据进行编码，即对候选图像进行下采样，从而得到第一特征数据。

在本发明实施例的一个实施例中，在第一编码网络中，对候选图像数据进行编码，获得第一特征数据，可以包括：在第一编码网络中，对候选图像数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第一特征数据。

S10442、在第一残差网络中，对第一特征数据进行处理，获得第二特征数据。

在具体实现中，第一编码网络301对候选图像数据进行编码，得到第一特征数据之后，第一残差网络302继续对第一特征数据进行处理，从而得到第二特征数据，并将第二特征数据分别输入至第二编码网络303中与第四残差网络311中。需要说明的是，本发明实施例中，通过第一残差链接312将第二特征数据输入至第四残差网络311中。

S10443、在第二编码网络中，对第二特征数据进行编码，获得第三特征数据。

在具体实现中，第二特征数据输入至第二编码网络303之后，第二编码网络303对第二特征数据进行编码，即对第二特征数据进行下采样，从而得到第三特征数据。

在本发明实施例的一个实施例中，在第二编码网络中，对第二特征数据进行编码，获得第三特征数据，可以包括：在第二编码网络中，对第二特征数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第三特征数据。

S10444、在第二残差网络中，对第三特征数据进行处理，获得第四特征数据。

在具体实现中，第二编码网络303对第二特征数据进行编码，得到第三特征数据之后，第二残差网络304继续对第三特征数据进行处理，从而得到第四特征数据，并将第四特征数据分别分别输入至第一解码网络305中与第三残差网络308中。需要说明的是，本发明实施例中，通过第二残差链接322将第四特征数据输入至第四残差网络311中。

S10445、在第一解码网络中，对第四特征数据进行解码，获得第五特征数据。

在具体实现中，第一解码网络305接收到第四特征数据之后，对第四特征数据进行解码，即对第四特征数据进行上采样，从而得到第五特征数据，进一步的，将第五特征数据输入至第二解码网络307中。

在本发明实施例的一个实施例中，在第一解码网络中，对第四特征数据进行解码，获得第五特征数据，可以包括：在第一解码网络中，对第四特征数据依次进行卷积处理、上采样处理，获得第五特征数据。

S10446、在第二解码网络中，对第五特征数据进行解码，获得第六特征数据。

在具体实现中，第二解码网络307接收到第五特征数据之后，对第五特征数据进行解码，即对第五特征数据进行上采样，从而得到第六特征数据，进一步的，将第六特征数据输入至第三解码网络310中。

在本发明实施例的一个实施例中，在第二解码网络中，对第五特征数据进行解码，获得第六特征数据，可以包括：在第二解码网络中，对第五特征数据依次进行卷积处理、上采样处理，获得第六特征数据。

S10447、在第三残差网络中，对第四特征数据与第六特征数据进行处理，获得第七特征数据。

在具体实现中，第三残差网络308对通过第二解码网络307获得到的第六特征数据，以及通过第二残差链接312获取到的第四特征数据进行处理，从而得到第七特征数据。

S10448、在第三解码网络中，对第七特征数据进行解码，获得第八特征数据。

在具体实现中，第三解码网络310接收到第七特征数据之后，对第七特征数据进行解码，即对第七特征数据进行上采样，从而得到第八特征数据，进一步的，将第八特征数据输入至第四残差网络311中。

在本发明实施例的一个实施例中，在第三解码网络中，对第七特征数据进行解码，获得第八特征数据，可以包括：在第三解码网络中，对第七特征数据依次进行卷积处理、上采样处理，获得第八特征数据。

S10449、在第四残差网络，对第二特征数据与第八特征数据进行处理，获得目标图像数据。

在具体实现中，第四残差网络311对通过第三解码网络310获得到的第八特征数据，以及通过第一残差链接311获取到的第二特征数据进行处理，从而得到目标图像数据。

在本发明实施例的一个实施例中，如图3所示的U型的神经网络的第一残差网络302、第二残差网络304、第三残差网络308与第四残差网络311中，均包含两个如图2所示的残差块。需要说明的是，本发明实施例中的各个残差网络中也可以包含其他数量的残差块，本发明实施例中对其不加以限制。

在本发明实施例的一个实施例中，S1044还可以包括如下步骤：

S10440、根据U型的神经网络提取的特征数据，将参考图像数据的风格迁移至目标图像数据。

其中，根据U型的神经网络提取的特征数据中包括参考图像数据的风格。需要说明的是，特征数据可以包括上述实施例中获取到的第一特征数据至第八特征数据中的任意一个或多个特征数据，本发明实施例中对其不加以限制。参考图像数据的风格可以为油画风格、漫画风格或者简笔画风格等，本发明实施例中对其不加以限制。

在具体实现中，可以根据U型的神经网络提取的第八特征数据，将参考图像数据的风格迁移至目标图像数据。

在本发明实施例的一个实施例中，本发明实施例中涉及到的U型的神经网络的第四残差网络的损失函数可以为Style Loss损失函数。通过在网络中增加Style Loss损失函数可以实现在获取目标图像数据时，保证目标图像数据与参考图像数据具有相似的纹理特征，可以更好地直接从需要驱动的参考图像数据中获得人脸的纹理和背景特性，更好的保持了人脸和背景的纹理特征，使得本发明实施例可以很好地适应直播场景。

在本实施例中，分别获取原始人脸数据以及虚拟形象，并对原始人脸数据识别原始人脸关键点，通过残差链接将参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态；获取的虚拟形象数据可以为任意一种图像数据，并不限制于需要美工设计的3D虚拟形象，解决了现有的人脸驱动方法需要依赖美工进行3D虚拟形象设计的问题，可以实现对任意虚拟形象的驱动；通过人脸关键点检测以及残差链接即可实现对虚拟形象的驱动，无需通过动作捕捉设备捕捉用户的动作，降低了成本；同时，在网络中加入残差链接，解决了网络训练过程中梯度消失和梯度爆炸的问题，无需增加网络的层数，也可以得到精确的训练结果，适用于直播等应用场景。

实施例二

图4为本发明实施例二提供的一种直播方法的流程图，本实施例以前述实施例为基础，本实施例可适用于主播用户通过虚拟形象进行直播的情况，该方法可以由直播装置来执行，该装置可以由软件和/或硬件实现，可配置在电子设备中，可以包括手机、平板、PDA、智能穿戴设备等移动终端，也可以包括服务器、工作站、智能电视、个人电脑等非移动终端，该方法具体包括如下步骤：

S401、接收主播客户端上传的原始直播数据。

在具体实现中，服务器可以实时地接收主播通过主播客户端上传的原始直播数据，其中，原始直播数据中具有视频数据、音频数据，视频数据的原始图像数据中具有主播用户的原始人脸数据。可以理解的是，视频数据中可以包括多帧原始图像数据。

需要说明的是，本发明实施例中涉及到的直播应用可以包括主播客户端、观众客户端以及直播间。用户可以在直播应用中注册主播账号和/或观众账号，当用户通过主播账号登录直播应用，向用户显示的界面即为主播客户端，该用户即为主播用户；当用户通过观众账号登录直播应用，向用户显示的界面即为观众客户端，该用户即为观众客户。可以理解的是，观众客户可以在直播间观看主播用户的直播。

S402、确定主播客户端选定的参考图像数据，参考图像数据中具有虚拟形象。

在具体实现中，服务器获取到原始直播数据之后，进一步的，获取主播通过客户端选定的参考图像数据。

在本发明实施例中，主播可以选取本地存储的具有虚拟形象的图像数据作为参考图像数据；主播也可以选取互联网平台提供的具有虚拟形象的图像数据作为参考图像数据；主播还可以选取主播客户端包含的具有虚拟形象的图像数据作为参考图像数据。

S403、对每帧原始图像数据中的原始人脸数据识别原始人脸关键点。

在具体实现中，服务器通过人脸检测算法对每帧原始图像数据中的原始人脸数据识别原始人脸关键点。

S404、通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

在本发明实施例的一个实施例中，通过残差链接将参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态，包括：对虚拟形象识别参考人脸关键点；合并原始人脸关键点、参考人脸关键点与参考图像数据，获得候选图像数据；确定U型的神经网络；将候选图像数据输入到U型的神经网络中进行解码与编码，从而生成目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

在本发明实施例的一个实施例中，U型的神经网络包括：第一编码网络、第二编码网络、第一解码网络、第二解码网络、第三解码网络、第一残差网络、第二残差网络、第三残差网络与第四残差网络；将候选图像数据输入到U型的神经网络中进行解码与编码，从而生成目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态，包括：在第一编码网络中，对候选图像数据进行编码，获得第一特征数据；在第一残差网络中，对第一特征数据进行处理，获得第二特征数据；在第二编码网络中，对第二特征数据进行编码，获得第三特征数据；在第二残差网络中，对第三特征数据进行处理，获得第四特征数据；在第一解码网络中，对第四特征数据进行解码，获得第五特征数据；在第二解码网络中，对第五特征数据进行解码，获得第六特征数据；在第三残差网络中，对第四特征数据与第六特征数据进行处理，获得第七特征数据；在第三解码网络中，对第七特征数据进行解码，获得第八特征数据；在第四残差网络，对第二特征数据与第八特征数据进行处理，获得目标图像数据。

在本发明实施例的一个实施例中，在第一编码网络中，对候选图像数据进行编码，获得第一特征数据，包括：在第一编码网络中，对候选图像数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第一特征数据；在第二编码网络中，对第二特征数据进行编码，获得第三特征数据，包括：在第二编码网络中，对第二特征数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第三特征数据。

在本发明实施例的一个实施例中，在第一解码网络中，对第四特征数据进行解码，获得第五特征数据，包括：在第一解码网络中，对第四特征数据依次进行卷积处理、上采样处理，获得第五特征数据；在第二解码网络中，对第五特征数据进行解码，获得第六特征数据，包括：在第二解码网络中，对第五特征数据依次进行卷积处理、上采样处理，获得第六特征数据；在第三解码网络中，对第七特征数据进行解码，获得第八特征数据，包括：在第三解码网络中，对第七特征数据依次进行卷积处理、上采样处理，获得第八特征数据。

在本发明实施例的一个实施例中，根据U型的神经网络提取的特征数据，将参考图像数据的风格迁移至目标图像数据。S405、根据目标图像数据生成目标直播数据。

其中，目标直播数据中主播所展示的动作与主播用户的动作相同，且主播用户的形象与虚拟形象相同。

在具体实现中，获得到与每帧原始图像数据匹配的每帧目标图像数据，可以进一步的将每帧目标图像数据合成目标直播数据。

S406、在主播用户关联的直播间中发布目标直播数据。

在本发明实施例的一个具体实施例中，该方法还可以包括如下步骤：

S411、接收主播客户端上传的每帧原始图像数据中包括的原始人脸关键点。

在具体实现中，主播客户端可以采集原始直播数据，对每帧原始图像数据中的原始人脸数据识别原始人脸关键点，并将原始人脸关键点上传至服务器。

S412、确定主播客户端选定的参考图像数据，参考图像数据中具有虚拟形象。

S413、通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

S414、根据目标图像数据生成目标直播数据；

S415、在主播用户关联的直播间中发布目标直播数据。

为了更好地理解本发明实施例，图5为本发明实施例二提供的一种直播方法的流程图，该方法包括如下步骤：

S501、主播上传单张虚拟形象照片。

其中，虚拟形象照片即为参考图像数据。

S502、提取虚拟形象照片中的人脸关键点。

S503、单目摄像头采集主播视频。

其中，主播视频即为原始直播数据。

S504、提取主播视频中的人脸关键点。

S505、通过U型的神经网络生成模型。

S506、确定具有虚拟形象外观和主播人脸姿态的画面。

在具体实现中，可以将虚拟形象照片中的人脸关键点、主播视频中的人脸关键点以及虚拟形象照片输入至如图3所示的U型的神经网络中，进行训练，从而确定具有虚拟形象外观和主播人脸姿态的画面。

图6列举了一种主播用户驱动虚拟形象图像进行虚拟直播的过程的示意图，其中，601为主播用户的人脸数据、602为主播用户的人脸数据与虚拟形象的结构化信息、603为U型的神经网络、604为生成的目标图像数据，其中，U型的神经网络为如图3所示的神经网络。

在具体实现中，可以通过人脸检测算法识别主播用户的人脸数据与虚拟形象的人脸关键点，即结构化信息；进一步的，将人脸数据与虚拟形象的结构化信息输入至U型的神经网络603中，从而生成目标图像数据604。需要说明的是，目标图像数据中显示的形象与虚拟形象相同，但其姿态与主播用户的姿态相同。

在本实施例中，服务器接收主播客户端上传的原始直播数据，确定主播客户端选定的参考图像数据，参考图像数据中具有虚拟形象；对每帧原始图像数据中的原始人脸数据识别原始人脸关键点；通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态；根据目标图像数据生成目标直播数据；在主播用户关联的直播间中发布目标直播数据，获取的虚拟形象数据可以为任意一种图像数据，并不限制于需要美工设计的3D虚拟形象，解决了现有的人脸驱动方法需要依赖美工进行3D虚拟形象设计的问题，可以实现对任意虚拟形象的驱动；通过人脸关键点检测以及残差链接即可实现对虚拟形象的驱动，无需通过动作捕捉设备捕捉用户的动作，降低了成本；同时，在网络中加入残差链接，解决了网络训练过程中梯度消失和梯度爆炸的问题，无需增加网络的层数，也可以得到精确的训练结果，在直播的场景中，主播用户可以控制所驱动的虚拟形象，主播客户端将原始直播数据与虚拟形象上传至服务器，服务器即可对图像数据进行重构，无需在主播客户端进行图像数据进行重构，主播客户端维持原有的操作流程，无需对现有的主播客户端进行修改，降低了开发成本。

实施例三

图7为本发明实施例三提供的一种直播方法的流程图，本实施例以前述实施例为基础，本实施例可适用于不同观众客户观看不同虚拟形象的主播直播的情况，其中，不同虚拟形象的主播为同一主播用户，该方法可以由直播装置来执行，该装置可以由软件和/或硬件实现，可配置在电子设备中，可以包括手机、平板、PDA、智能穿戴设备等移动终端，也可以包括服务器、工作站、智能电视、个人电脑等非移动终端，该方法具体包括如下步骤：

S701、在观众客户端登录直播间时，接收服务器发送的原始直播数据。

其中，原始直播数据中具有原始人脸关键点、音频数据，原始人脸关键点、音频数据按帧进行对齐，使得播放的时候同步，原始人脸关键点提取自面对主播用户采集的视频数据。

在具体实现中，主播客户端将采集到的主播用户的视频数据与音频数据上传至服务器，服务器识别视频数据中原始人脸数据的原始人脸关键点，并与音频数据对齐之后传输至直播间；当观众客户登录直播间时，即可接受服务器发送的原始直播数据。

需要说明的是，本发明实施例中，原始直播数据中的原始人脸关键点可以通过主播客户端进行识别，也可以通过服务器进行识别，本发明实施例中对其不加以限制。

S702、确定观众客户端选定的参考图像数据，参考图像数据中具有虚拟形象。

S703、通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

在本发明实施例的一个实施例中，根据U型的神经网络提取的特征数据，将参考图像数据的风格迁移至目标图像数据。S704、在直播间的页面中播放包含目标图像数据的视频数据与音频数据。

本实施例的方案，在观众客户端登录直播间时，接收服务器发送的原始直播数据；确定观众客户端选定的参考图像数据，参考图像数据中具有虚拟形象；通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态，获取的虚拟形象数据可以为任意一种图像数据，并不限制于需要美工设计的3D虚拟形象，解决了现有的人脸驱动方法需要依赖美工进行3D虚拟形象设计的问题，可以实现对任意虚拟形象的驱动；通过人脸关键点检测以及残差链接即可实现对虚拟形象的驱动，无需通过动作捕捉设备捕捉用户的动作，降低了成本；同时，在网络中加入残差链接，解决了网络训练过程中梯度消失和梯度爆炸的问题，无需增加网络的层数，也可以得到精确的训练结果，在直播的场景中，观众用户可以控制驱动的虚拟形象，可以实现不同的观众客户观看到的直播间的主播用户的形象不同，即千人千面；同时，观众客户端接收的是服务器发送的人脸关键点，而不是视频数据，人脸关键点的体积远小于视频数据的体积，可以降低对带宽的要求，降低延时，提高实时性，并且，分别在每个观众客户端实现目标图像数据重组，无需服务器同时进行大量的目标图像重组工作，可以降低服务器的资源负担。

实施例四

图8为本发明实施例四提供的一种人脸驱动装置的结构示意图，该装置可以执行本发明实施例中任意实施例中涉及到的人脸驱动方法，该装置具体可以包括如下模块：

原始图像数据获取模块801，用于获取原始图像数据，原始图像数据中具有人脸数据；

参考图像数据获取模块802，用于获取参考图像数据，参考图像数据中具有虚拟形象；

人脸关键点识别模块803，用于对人脸数据识别人脸关键点；

目标图像数据重组模块804，用于通过残差链接将参考图像数据重组为目标图像数据，以将虚拟形象调整至人脸关键点所表征的姿态。

在本发明的一个实施例中，目标图像数据重组模块804包括：

参考人脸关键点识别子模块，用于对虚拟形象识别参考人脸关键点；

候选图像数据获取子模块，用于合并原始人脸关键点、参考人脸关键点与参考图像数据，获得候选图像数据；

神经网络确定子模块，用于确定U型的神经网络；

目标图像数据生成子模块，用于将候选图像数据输入到U型的神经网络中进行解码与编码，从而生成目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

在本发明的一个实施例中，U型的神经网络包括：第一编码网络、第二编码网络、第一解码网络、第二解码网络、第三解码网络、第一残差网络、第二残差网络、第三残差网络与第四残差网络。

在本发明的一个实施例中，目标图像数据生成子模块包括：

第一特征数据获取单元，用于在第一编码网络中，对候选图像数据进行编码，获得第一特征数据。

第二特征数据获取单元，用于在第一残差网络中，对第一特征数据进行处理，获得第二特征数据；

第三特征数据获取单元，用于在第二编码网络中，对第二特征数据进行编码，获得第三特征数据；

第四特征数据获取单元，用于在第二残差网络中，对第三特征数据进行处理，获得第四特征数据；

第五特征数据获取单元，用于在第一解码网络中，对第四特征数据进行解码，获得第五特征数据；

第六特征数据获取单元，用于在第二解码网络中，对第五特征数据进行解码，获得第六特征数据；

第七特征数据获取单元，用于在第三残差网络中，对第四特征数据与第六特征数据进行处理，获得第七特征数据；

第八特征数据获取单元，用于在第三解码网络中，对第七特征数据进行解码，获得第八特征数据；

目标图像数据获取单元，用于在第四残差网络，对第二特征数据与第八特征数据进行处理，获得目标图像数据。

在本发明的一个实施例中，第一特征数据获取单元具体用于在第一编码网络中，对候选图像数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第一特征数据。

在本发明的一个实施例中，第三特征数据获取单元具体用于在第二编码网络中，对第二特征数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第三特征数据。

在本发明的一个实施例中，第五特征数据获取单元具体用于在第一解码网络中，对第四特征数据依次进行卷积处理、上采样处理，获得第五特征数据。

在本发明的一个实施例中，第六特征数据获取单元具体用于在第二解码网络中，对第五特征数据依次进行卷积处理、上采样处理，获得第六特征数据。

在本发明的一个实施例中，第八特征数据获取单元具体用于在第三解码网络中，对第七特征数据依次进行卷积处理、上采样处理，获得第八特征数据。

在本发明的一个实施例中，目标图像数据重组模块804还包括：

风格迁移子模块，用于根据U型的神经网络提取的特征数据，将参考图像数据的风格迁移至目标图像数据。

本发明实施例所提供的人脸驱动装置可执行本发明任意实施例所提供的人脸驱动方法，具备执行方法相应的功能模块和有益效果。

实施例五

图9为本发明实施例五提供的一种直播装置的结构示意图，该装置可以执行本发明实施例中任意实施例中涉及到的直播方法，该装置具体可以包括如下模块：

原始直播数据接收模块901，用于接收主播客户端上传的原始直播数据，原始直播数据中具有视频数据，视频数据的原始图像数据中具有主播用户的人脸数据；

参考图像数据确定模块902，用于确定主播客户端选定的参考图像数据，参考图像数据中具有虚拟形象；

人脸关键点识别模块903，用于对每帧原始图像数据中的人脸数据识别人脸关键点；

目标图像数据重组模块904，用于通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至人脸关键点所表征的姿态；

目标直播数据生成模块905，用于根据目标图像数据生成目标直播数据；

目标直播数据发布模块906，用于在主播用户关联的直播间中发布目标直播数据。

在本发明的一个实施例中，目标图像数据重组模块904包括：

神经网络确定子模块，用于确定U型的神经网络；

在本发明的一个实施例中，目标图像数据生成子模块包括：

在本发明的一个实施例中，目标图像数据重组模块904还包括：

本发明实施例所提供的直播装置可执行本发明任意实施例所提供的直播方法，具备执行方法相应的功能模块和有益效果。

实施例六

图10为本发明实施例六提供的一种直播装置的结构示意图，该装置可以执行本发明实施例中任意实施例中涉及到的直播方法，该装置具体可以包括如下模块：

原始直播数据接收模块1001，用于在观众客户端登录直播间时，接收服务器发送的原始直播数据，原始直播数据中具有人脸关键点，人脸关键点提取自面对主播用户采集的视频数据；

参考图像数据确定模块1002，用于确定观众客户端选定的参考图像数据，参考图像数据中具有虚拟形象；

目标图像数据重组模块1003，用于通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至人脸关键点所表征的姿态；

音视频数据播放模块1004，用于在直播间的页面中播放包含目标图像数据的视频数据与音频数据。

在本发明的一个实施例中，目标图像数据重组模块1003包括：

神经网络确定子模块，用于确定U型的神经网络；

在本发明的一个实施例中，目标图像数据生成子模块包括：

在本发明的一个实施例中，目标图像数据重组模块1003还包括：

实施例七

图11为本发明实施例七提供的一种电子设备的结构示意图。如图11所示，该电子设备包括处理器1100、存储器1101、通信模块1102、输入装置1103和输出装置1104；电子设备中处理器1100的数量可以是一个或多个，图11中以一个处理器1100为例；电子设备中的处理器1100、存储器1101、通信模块1102、输入装置1103和输出装置1104可以通过总线或其他方式连接，图11中以通过总线连接为例。

存储器1101作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的人脸驱动方法对应的模块(例如，如图8所示的人脸驱动装置中的原始图像数据获取模块801、参考图像数据获取模块802、人脸关键点识别模块803和目标图像数据重组模块804)或者直播方法对应的模块(例如，如图9所示的直播装置中的原始直播数据接收模块901、参考图像数据确定模块902、人脸关键点识别模块903、目标图像数据重组模块904、目标直播数据生成模块905和目标直播数据发布模块906，或者，如图10所示的直播装置中的原始直播数据接收模块1001、参考图像数据确定模块1002、目标图像数据重组模块1003和音视频数据播放模块1004)。处理器1100通过运行存储在存储器1101中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的人脸驱动方法或者直播方法。

存储器1101可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器1101可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器1101可进一步包括相对于处理器1100远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块1102，用于与显示屏建立连接，并实现与显示屏的数据交互。

输入装置1103可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。

输出装置1104可以包括扬声器等音频设备。

需要说明的是，输入装置1103和输出装置1104的具体组成可以根据实际情况设定。

处理器1100通过运行存储在存储器1101中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的电子白板的连接节点控制方法。

本实施例提供的电子设备，可执行本发明任一实施例提供的人脸驱动方法或者直播方法，具体相应的功能和有益效果。

实施例八

本发明实施例八还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种人脸驱动方法或者直播方法，人脸驱动方法包括：

获取原始图像数据，原始图像数据中具有原始人脸数据；

获取参考图像数据，参考图像数据中具有虚拟形象；

对原始人脸数据识别原始人脸关键点；

通过残差链接将参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态。

直播方法包括：

接收主播客户端上传的原始直播数据，原始直播数据中具有视频数据，视频数据的原始图像数据中具有主播用户的原始人脸数据；

确定主播客户端选定的参考图像数据，参考图像数据中具有虚拟形象；

对每帧原始图像数据中的原始人脸数据识别原始人脸关键点；

通过残差链接将每帧参考图像数据重组为目标图像数据，以将虚拟形象调整至原始人脸关键点所表征的姿态；

根据目标图像数据生成目标直播数据；

在主播用户关联的直播间中发布目标直播数据。

或者，

在观众客户端登录直播间时，接收服务器发送的原始直播数据，原始直播数据中具有原始人脸关键点，原始人脸关键点提取自面对主播用户采集的视频数据；

确定观众客户端选定的参考图像数据，参考图像数据中具有虚拟形象；

在直播间的页面中播放包含目标图像数据的视频数据与音频数据。

当然，本发明实施例所提供的计算机可读存储介质，其计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的人脸驱动方法或者直播方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述人脸驱动装置或者直播装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种人脸驱动方法，其特征在于，包括：

获取参考图像数据，所述参考图像数据中具有虚拟形象；

对所述原始人脸数据识别原始人脸关键点；

2.根据权利要求1所述的方法，其特征在于，所述通过残差链接将所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述原始人脸关键点所表征的姿态，包括：

对所述虚拟形象识别参考人脸关键点；

合并所述原始人脸关键点、所述参考人脸关键点与所述参考图像数据，获得候选图像数据；

确定U型的神经网络；

将所述候选图像数据输入到所述U型的神经网络中进行解码与编码，从而生成目标图像数据，以将所述虚拟形象调整至所述原始人脸关键点所表征的姿态。

3.根据权利要求2所述的方法，其特征在于，所述U型的神经网络包括：第一编码网络、第二编码网络、第一解码网络、第二解码网络、第三解码网络、第一残差网络、第二残差网络、第三残差网络与第四残差网络；

所述将所述候选图像数据输入到所述U型的神经网络中进行解码与编码，从而生成目标图像数据，以将所述虚拟形象调整至所述原始人脸关键点所表征的姿态，包括：

在所述第一编码网络中，对所述候选图像数据进行编码，获得第一特征数据；

在所述第一残差网络中，对所述第一特征数据进行处理，获得第二特征数据；

在所述第二编码网络中，对所述第二特征数据进行编码，获得第三特征数据；

在所述第二残差网络中，对所述第三特征数据进行处理，获得第四特征数据；

在所述第一解码网络中，对所述第四特征数据进行解码，获得第五特征数据；

在所述第二解码网络中，对所述第五特征数据进行解码，获得第六特征数据；

在所述第三残差网络中，对所述第四特征数据与所述第六特征数据进行处理，获得第七特征数据；

在所述第三解码网络中，对所述第七特征数据进行解码，获得第八特征数据；

在所述第四残差网络，对所述第二特征数据与所述第八特征数据进行处理，获得目标图像数据。

4.根据权利要求3所述的方法，其特征在于，

所述在所述第一编码网络中，对所述候选图像数据进行编码，获得第一特征数据，包括：

在所述第一编码网络中，对所述候选图像数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第一特征数据；

所述在所述第二编码网络中，对所述第二特征数据进行编码，获得第三特征数据，包括：

在所述第二编码网络中，对所述第二特征数据依次进行下采样的卷积处理、激活处理与标准化处理，获得第三特征数据。

5.根据权利要求3所述的方法，其特征在于，

所述在所述第一解码网络中，对所述第四特征数据进行解码，获得第五特征数据，包括：

在所述第一解码网络中，对所述第四特征数据依次进行卷积处理、上采样处理，获得第五特征数据；

所述在所述第二解码网络中，对所述第五特征数据进行解码，获得第六特征数据，包括：

在所述第二解码网络中，对所述第五特征数据依次进行卷积处理、上采样处理，获得第六特征数据；

所述在所述第三解码网络中，对所述第七特征数据进行解码，获得第八特征数据，包括：

在所述第三解码网络中，对所述第七特征数据依次进行卷积处理、上采样处理，获得第八特征数据。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述通过残差链接将所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述人脸关键点所表征的姿态，还包括：

根据所述U型的神经网络提取的特征数据，将所述参考图像数据的风格迁移至所述目标图像数据。

7.一种直播方法，其特征在于，包括：

根据所述目标图像数据生成目标直播数据；

在所述主播用户关联的直播间中发布所述目标直播数据。

8.一种直播方法，其特征在于，包括：

在所述直播间的页面中播放包含所述目标图像数据的视频数据与音频数据。

9.一种人脸驱动装置，其特征在于，包括：

原始图像数据获取模块，用于获取原始图像数据，所述原始图像数据中具有人脸数据；

人脸关键点识别模块，用于对所述人脸数据识别人脸关键点；

目标图像数据重组模块，用于通过残差链接将所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述人脸关键点所表征的姿态。

10.一种直播装置，其特征在于，包括：

原始直播数据接收模块，用于接收主播客户端上传的原始直播数据，所述原始直播数据中具有视频数据，所述视频数据的原始图像数据中具有主播用户的人脸数据；

人脸关键点识别模块，用于对每帧所述原始图像数据中的所述人脸数据识别人脸关键点；

目标图像数据重组模块，用于通过残差链接将每帧所述参考图像数据重组为目标图像数据，以将所述虚拟形象调整至所述人脸关键点所表征的姿态；

11.一种直播装置，其特征在于，包括：

原始直播数据接收模块，用于在观众客户端登录直播间时，接收服务器发送的原始直播数据，所述原始直播数据中具有人脸关键点，所述人脸关键点提取自面对主播用户采集的视频数据；

12.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的人脸驱动方法、权利要求7所述的直播方法或者权利要求8所述的直播方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一所述的人脸驱动方法、权利要求7所述的直播方法或者权利要求8所述的直播方法。