CN113554737A

CN113554737A - 目标对象的动作驱动方法、装置、设备及存储介质

Info

Publication number: CN113554737A
Application number: CN202011413461.3A
Authority: CN
Inventors: 张文杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-10-26
Also published as: WO2022116977A1; US20230042654A1; JP2023545642A

Abstract

本申请实施例提供一种目标对象的动作驱动方法、装置、设备及存储介质，涉及人工智能技术领域。方法包括：获取源语音和目标视频，所述目标视频中包括目标对象，对源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；对目标视频进行参数提取，得到目标参数；根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。通过本申请，能够使得最终得到的语音驱动目标对象动作的合成视频更加平滑和真实，提高了视频合成的视觉效果。

Description

目标对象的动作驱动方法、装置、设备及存储介质

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种目标对象的动作驱动方法、装置、设备及存储介质。

背景技术

近年来，在嘴型同步说话视频生成领域中，主流的方法都是基于深度学习来实现，相关技术中，一种实现方式是利用循环神经网络从语音特征中学习到嘴部关键点，然后基于嘴部关键点信息生成嘴部纹理，最后和目标视频帧结合得到嘴型同步说话视频帧。另一种实现方式是首先根据多个不同来源的声音片段学习一个通用、共享的“语音-表情”空间，然后根据所得的表情参数得到最终的嘴型同步说话视频帧。

但是，相关技术中的方法所生成的最终的嘴型同步说话视频帧均存在视频不平滑且不真实的问题。

发明内容

本申请实施例提供一种目标对象的动作驱动方法、装置、设备及存储介质，涉及人工智能技术领域。由于分别确定出源语音对应的源参数和目标视频对应的目标参数，并根据源参数和目标参数的结合参数对目标对象进行图像重构，进而得到合成视频，如此，由于基于结合参数得到最终语音驱动目标对象的动作的合成视频，使得最终所得到的合成视频更加平滑和真实。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种目标对象的动作驱动方法，所述方法包括：

获取源语音和目标视频，所述目标视频中包括目标对象；

对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；

对所述目标视频进行参数提取，得到目标参数；

根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；

通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。

本申请实施例提供一种目标对象的动作驱动装置，所述装置包括：

获取模块，用于获取源语音和目标视频，所述目标视频中包括目标对象；

人脸参数转换模块，用于对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；

参数提取模块，用于对所述目标视频进行参数提取，得到目标参数；

图像重构模块，用于根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；

生成模块，用于通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。

本申请实施例提供一种目标对象的动作驱动系统，至少包括：终端和服务器；

所述终端，用于向所述服务器发送所述目标对象的动作驱动请求，所述动作驱动请求中包括源语音和目标视频，所述目标视频中包括目标对象；

所述服务器，用于响应于所述动作驱动请求，实现上述的目标对象的动作驱动方法。

本申请实施例提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；其中，计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器用于执行所述计算机指令，实现上述的目标对象的动作驱动方法。

本申请实施例提供一种目标对象的动作驱动设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的目标对象的动作驱动方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的目标对象的动作驱动方法。

本申请实施例具有以下有益效果：对源语音在每一时刻的语音参数进行人脸参数转换处理，得到源语音在对应时刻的源参数，对目标视频进行参数提取得到目标参数，并根据源参数和目标参数的结合参数对目标对象进行图像重构，得到重构图像，最后，通过重构图像生成合成视频。如此，由于基于源参数和目标参数的结合参数得到最终语音驱动目标对象的动作的合成视频，使得最终所得到的合成视频更加平滑和真实，提高了视频合成的视觉效果。

附图说明

图1是相关技术中的一种目标对象的动作驱动方法的系统框架图；

图2是本申请实施例提供的目标对象的动作驱动系统的一个可选的架构示意图；

图3是本申请实施例提供的服务器的结构示意图；

图4是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图；

图5是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图；

图6是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图；

图7是本申请实施例提供的图像渲染模型的训练方法的实现流程示意图；

图8是本申请实施例提供的目标对象的动作驱动方法的系统框架图；

图9是本申请实施例提供的文本转语音模块的框架图；

图10是本申请实施例提供的语音转人脸参数网络的框架图；

图11是本申请实施例提供的Dlib算法效果图；

图12是本申请实施例提供的图像渲染模型的框架图；

图13是本申请实施例提供的基于条件的GAN框架图；

图14是相关技术中的方法合成的虚拟人同步说话视频；

图15是本申请实施例的目标对象的动作驱动方法所生成的合成视频。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在解释本申请实施例之前，首先对相关技术中的目标对象的动作驱动方法进行说明：

目前，嘴型同步说话视频生成领域主要分为两大类：文本驱动和语音驱动。顾名思义，文本驱动是输入一段文本和一段目标人物的视频，通过从文本到语音(TTS，Text ToSpeech)技术将文本转化成语音，再从语音特征中学习人脸特征，最后输出一段目标人物阅读输入文本的视频；而语音驱动则跳过TTS的步骤，直接输入一段语音和目标人物的视频，可以说，文本驱动方法是语音驱动方法的一种扩充。目前主流方法主要都是基于深度学习来实现，其中，Audio2Obama方法中，首先利用循环神经网络从语音特征中学习到20个嘴部关键点，然后基于关键点信息生成嘴部纹理，最后和目标视频帧结合得到嘴型同步说话视频帧。而作为文本驱动的ObamaNet方法，则主要包含三个模块，分别为“文本-语音”模块、“语音-关键点”模块以及“关键点-视频帧”模块，其中，“文本-语音”模块采用TTS算法中的Char2Wav，“语音-关键点”模块同样利用循环神经网络从语音特征中学习到关键点信息，而“关键点-视频帧”模块则利用具有跳跃连接来实现信息传递的U-Net网络，该方法也是近年来首个基于深度学习的文本驱动的嘴型同步说话视频生成模型。

虽然上述方法都能取得比较可观的效果，但上述方法都是基于同一个人进行实验验证，模型可扩展性较差。为此，另一些方法也开始致力于设计能适应不同人物声音的网络。例如，一种方法中，首先根据多个不同来源的声音片段学习一个通用、共享的“语音-表情”空间，然后根据所得的表情参数进行3D人脸重构，进而得到对应的UV贴图(UV map)，UVmap为一张由3D人脸坐标映射到二维平面的图。该方法同样采用U-Net网络来渲染视频帧。另一种方法中，则提出一个语音身份信息去除网络来将不同说话者的语音特征转换到一个全局域中，然后利用循环神经网络从语音特征中学习表情参数，将得到的表情参数与目标人物的3D人脸参数结合重构得到3D网格，利用3D网格输入到U-Net网络得到最终的视频帧。再一种方法中，则主要针对渲染模块进行改进，提出了一个记忆增强生成式对抗网络(GAN，Generative Adversarial Networks)来保存不同说话人的身份特征和空间特征对，从而实现不同人说话视频合成。

相关技术中，还提出一种基于语音驱动模型的目标对象的动作驱动方法，该方法首先根据多个不同来源的声音片段学习一个通用、共享的“语音-表情”空间，该空间由多个混合形状构成，不同人的表情参数均可由空间中的不同混合形状的线性组合构成。然后根据所得的表情参数进行3D人脸重构，进而得到对应的UV map，然后采用基于空洞卷积的U-Net来渲染视频帧，图1是相关技术中的一种目标对象的动作驱动方法的系统框架图，如图1所示，目标对象的动作驱动方法的系统框架由广义网络(Generalized Network)11和专业网络(Specialized Network)12组成，其中，该技术方案系统框架的具体处理流程如下：首先将不同来源的声音片段111输入到语音识别系统(DeepSpeech RNN)112中进行语音特征提取，得到语音特征然后经过一个卷积神经网络(CNN，Convolutional Neural Networks)113将不同人的语音特征映射到一个通用、共享的隐语音表情空间(Latent AudioExpression Space)114，对于不同人的语音特征，均可用该空间中的不同混合形状(blendshape)的线性组合构成。广义网络11的输出会进入专业网络12的内容感知滤波器(Content-Aware Filtering)121，得到平滑的语音-表情参数(Smooth Audio-Expressions)122，进而得到重构的3D人脸模型(3D Model)123和UV Map 124。最后UV Map124和背景图片125输入到神经渲染网络(Neural Rendering Network)126中得到最终的输出图片127。

相关技术中的上述方法至少存在以下问题：相关技术中是语音驱动方法，无法实现给定一个文本，输出对应的嘴型同步说话视频；相关技术中所利用的人脸参数只有由3D人脸模型得到的UV Map，但UV Map只能为网络提供嘴型的先验，网络对于牙齿的细节没有得到任何辅助信息；相关技术中在训练渲染网络时仅惩罚预测值和真实值的对应帧，对于输入的前后帧之间没有考虑，会导致前后帧的差异性得不到优化，使最终的视频出现抖动现象。并且，对于相关技术中的上述方法，还均存在所生成的最终的嘴型同步说话视频帧对应的视频不平滑且不真实的问题。

3D虚拟人嘴型同步说话视频生成领域目前的主要挑战包括两点：人脸重构以及视频帧的渲染。针对第一个难点，本申请实施例提出了一个语音转人脸参数网络，可以从语音特征中同时学习2D嘴部关键点与3D人脸表情参数，这样既能得到2D关键点提供的精确位置信息，同时也能保留3D人脸参数具有深度信息的优势，结合2D和3D参数来重构人脸能确保其准确性。在得到重构人脸后，还需要和背景进行融合，针对第二个难点，本申请实施例提出了一个两阶段的渲染网络，第一个渲染网络实现从重构人脸中渲染出嘴部纹理区域，第二个渲染网络则旨在将嘴部纹理区域与背景结合渲染出最终视频帧。使用两阶段渲染网络的好处在于：1)单独训练两个渲染网络能降低训练难度，同时能确保第一个渲染网络生成的嘴型纹理的准确性；2)训练第二个渲染网络时再次对嘴型区域进行惩罚，实现对嘴型的修正以及牙齿、皱纹等细节的优化。此外，在训练渲染网络时，还采用了一个视频帧相似性损失来确保输出的前后帧之间差异性不大，避免视频抖动现象和视频不平滑且不真实的问题。

本申请实施例提供的目标对象的动作驱动方法，首先，获取源语音和目标视频，目标视频中包括目标对象；然后，对源语音在每一时刻的语音参数进行人脸参数转换处理，得到源语音在对应时刻的源参数；对目标视频进行参数提取，得到目标参数；根据对源参数和目标参数进行结合所得到的结合参数，对目标视频中的目标对象进行图像重构，得到重构图像；最后，通过重构图像生成合成视频，合成视频中具有目标对象，且目标对象的动作与源语音对应。如此，由于基于源参数和目标参数的结合参数得到最终语音驱动目标对象的动作的合成视频，使得最终所得到的合成视频更加平滑和真实，提高了视频合成的视觉效果。

下面说明本申请实施例的目标对象的动作驱动设备的示例性应用，在一种实现方式中，本申请实施例提供的目标对象的动作驱动设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人等任意的具备视频播放功能的终端，在另一种实现方式中，本申请实施例提供的目标对象的动作驱动设备还可以实施为服务器。下面，将说明目标对象的动作驱动设备实施为服务器时的示例性应用。

参见图2，图2是本申请实施例提供的目标对象的动作驱动系统20的一个可选的架构示意图。为实现合成同时具有目标对象和源语音的合成视频，即生成源语音驱动目标对象的动作的合成视频，本申请实施例提供的目标对象的动作驱动系统20中包括终端100、网络200和服务器300，终端100获取目标视频和源语音，根据目标视频和源语音生成目标对象的动作驱动请求，并将动作驱动请求通过网络200发送给服务器300，服务器300响应于动作驱动请求，对源语音在每一时刻的语音参数进行人脸参数转换处理，得到源语音在对应时刻的源参数；并对目标视频进行参数提取，得到目标参数；然后，根据对源参数和目标参数进行结合所得到的结合参数，对目标视频中的目标对象进行图像重构，得到重构图像；通过重构图像生成合成视频，其中，合成视频中具有目标对象，且目标对象的动作与源语音对应。在得到合成视频之后，将合成视频通过网络200发送给终端100。终端100在获取到合成视频之后，在终端100的当前界面100-1上播放该合成视频。

本申请实施例提供的目标对象的动作驱动方法还涉及人工智能技术领域，通过人工智能技术实现对合成视频进行合成。本申请实施例中，至少可以通过人工智能技术中的计算机视觉技术、语音技术和自然语言处理技术来实现。其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OCR，Optical Character Recognition)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，Automati c Speech Recognition)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NLP，Natur e Languageprocessing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例所提供的目标对象的动作驱动方法还可以基于云平台并通过云技术来实现，例如，上述服务器300可以是云端服务器。

图3是本申请实施例提供的服务器300的结构示意图，图3所示的服务器300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可采用软件方式实现，图3示出了存储在存储器350中的一种目标对象的动作驱动装置354，该目标对象的动作驱动装置354可以是服务器300中的目标对象的动作驱动装置，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块3541、人脸参数转换模块3542、参数提取模块3543、图像重构模块3544和生成模块3545，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的目标对象的动作驱动方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Applic ation Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmabl e Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logi c Device)、现场可编程门阵列(FPGA，Field-ProgrammableGate Array)或其他电子元件。

下面将结合本申请实施例提供的服务器300的示例性应用和实施，说明本申请实施例提供的目标对象的动作驱动方法，该方法可以是一种视频合成方法。参见图4，图4是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图，下面将结合图4示出的步骤进行说明。

步骤S401，获取源语音和目标视频，目标视频中包括目标对象。

这里，服务器可以接收用户通过终端发送的目标对象的动作驱动请求，该动作驱动请求用于请求对源语音和目标视频进行合成，生成同时具有目标对象和源语音，且源语音驱动目标对象的动作的合成视频，即请求生成的合成视频中具有目标视频中的目标对象，且目标对象对应的语音为该源语音。

源语音可以是用户预先录制的语音，也可以是从网络上下载的语音，还可以是对特定的文本进行转换后得到的语音。在一些实施例中，源语音的声音特征可以是特定对象的声音特征，还可以是目标视频中的目标对象的声音特征。

步骤S402，对源语音在每一时刻的语音参数进行人脸参数转换处理，得到源语音在对应时刻的源参数。

这里，每一时刻的源参数包括但不限于表情参数和嘴部关键点参数，其中，表情参数是与该时刻的语音参数对应的表情参数，例如，当语音参数对应的为欢快的语音时，则表情参数可以是微笑的表情参数，当语音参数对应的为悲伤的语音时，则表情参数可以是皱眉的表情参数。嘴部关键点参数是在表达该时刻的语音参数时的口型参数。

本申请实施例中，表情参数为3D表情参数，嘴部关键点参数为2D关键点参数。

步骤S403，对目标视频进行参数提取，得到目标参数。

这里，可以采用预设算法对目标视频进行参数提取，即对目标视频中的目标对象进行参数提取，其中，目标参数包括但不限于目标嘴部关键点参数和目标人脸参数，当然，目标参数还可以包括目标对象的姿态参数、位置参数、形状参数和动作参数等。

步骤S404，根据对源参数和目标参数进行结合所得到的结合参数，对目标视频中的目标对象进行图像重构，得到重构图像。

这里，首先对源参数和目标参数进行结合，得到结合参数，结合参数是用于表征最终合成视频中的目标对象的姿态、位置、形状、动作和口型等状态的参数。

本申请实施例中，根据结合参数对目标对象进行图像重构，得到重构图像，重构图像是用于生成最终合成视频的图像。

步骤S405，通过所述重构图像生成合成视频。

这里，合成视频中具有目标对象，且目标对象的动作与源语音对应。

本申请实施例中，对应于每一时刻的语音参数，生成对应的重构图像，且对每一重构图像进行渲染生成一张合成图像，由于语音参数具有一定的时长，因此重构图像可以具有至少一张，且合成视频的时长与源语音的时长相等，或者，合成视频的时长大于源语音的时长。当重构图像具有一张时，则最终生成的合成视频为一张合成图像；当重构图像具有多张时，则最终生成的合成视频的时长与源语音的时长相同，且合成视频是由多张合成图像按照时间先后顺序连接形成的视频。

在一些实施例中，目标视频可以具有至少一帧视频帧，目标视频中具有目标对象，当目标视频包括一帧视频帧时，该视频帧中具有目标对象，视频合成请求用于请求生成具有该目标对象的合成视频，且合成视频是基于一帧视频帧得到的动态的视频；当目标视频中包括多帧视频帧时，至少一帧视频帧中具有目标对象，视频合成请求用于请求生成具有该目标对象的合成视频，且合成视频是基于多帧视频帧得到的动态的视频。

在一些实施例中，当目标视频中包括多帧视频帧时，目标视频的时长可以与源语音的时长相同，也可以不同。当目标视频的时长与源语音的时长相同时，则可以根据每一视频帧对应源语音在每一时刻的语音参数，形成合成图像，最终形成具有与目标视频具有相同时长的合成视频。

本申请实施例可以应用于以下场景：在教育产业中，如果想生成一段关于某知识点的教学视频，可以将该知识点对应的源语音(即课堂教师语音)和具有教师讲课的目标视频输入至服务器中，服务器可以采用本申请实施例的方法直接生成教师讲解该知识点的教学视频(即合成视频)并输出。

本申请实施例提供的目标对象的动作驱动方法，对源语音在每一时刻的语音参数进行人脸参数转换处理，得到源语音在对应时刻的源参数，对目标视频进行参数提取得到目标参数，并根据源参数和目标参数的结合参数对目标对象进行图像重构，得到重构图像，最后，通过重构图像生成合成视频，其中，合成视频中具有目标对象，且目标对象的动作与源语音对应。如此，由于基于源参数和目标参数的结合参数得到最终语音驱动目标对象的动作的合成视频，使得最终所得到的合成视频更加平滑和真实，提高了视频合成的视觉效果。

在一些实施例中，目标对象的动作驱动系统中至少包括终端和服务器，通过终端和服务器之间的交互，实现对终端动作驱动请求的响应，生成用户想要的合成视频。

在一些实施例中，动作驱动请求中包括源语音和目标视频，在另一些实施例中，动作驱动请求中还可以包括源文本，可以通过该源文本得到源语音。图5是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图，如图5所示，方法包括以下步骤：

步骤S501，终端获取源语音和目标视频。

这里，源语音可以是用户通过终端上的语音采集装置采集的语音，还可以是用户通过终端下载的语音。目标视频可以是具有任意时长的视频，目标视频中具有目标对象。

步骤S502，终端获取源文本和目标视频。

这里，源文本是用于生成源语音的文本，本申请实施例中，不仅可以对输入的源语音进行处理，生成具有源语音的合成视频，还可以对输入的源文本进行解析和转换生成源语音，进而形成具有源语音的合成视频。

步骤S503，终端对源文本进行文本解析，得到源文本的语言学特征。

这里，语言学特征包括但不限于：拼音、停顿、标点符号和声调等语言学特征。在一些实施例中，还可以基于人工智能技术对源文本进行文本解析，得到源文本的语言学特征。

步骤S504，终端对语言学特征进行声学参数提取，得到源文本在时域上的声学参数。这里，声学参数为源文本在时域上的参数表示，通过对语言学特征进行声学参数提取，得到源文本在时域上的声学参数。

步骤S505，终端对声学参数进行转换处理，得到源文本在频域上的语音波形。

这里，语音波形是与声学参数对应的声学表示，语音波形是源文本在频域上的参数表示。

步骤S506，终端将语音波形对应的语音，确定为源语音。

步骤S507，终端对源语音和目标视频进行封装，形成动作驱动请求。

在一些实施例中，终端还可以将源文本封装于动作驱动请求中，并将动作驱动请求发送给服务器，由服务器实现步骤S503至步骤S506中将源文本转换为源语音的步骤。

步骤S508，终端将动作驱动请求发送给服务器。

步骤S509，服务器解析动作驱动请求，得到源语音和目标视频。

步骤S510，服务器对源语音在每一时刻的语音参数进行人脸参数转换处理，得到源语音在对应时刻的源参数。

步骤S511，服务器对目标视频进行参数提取，得到目标参数。

步骤S512，服务器根据对源参数和目标参数进行结合所得到的结合参数，对目标视频中的目标对象进行图像重构，得到重构图像。

步骤S513，服务器通过重构图像生成合成视频，其中，合成视频中具有目标对象，且目标对象的动作与源语音对应。

需要说明的是，步骤S510至步骤S513与上述步骤S402至步骤S405相同，本申请实施例不再赘述。

步骤S514，服务器将合成视频发送给终端。

步骤S515，终端在当前界面上播放合成视频。

在一些实施例中，源参数包括：表情参数和嘴部关键点参数。基于图4，图6是本申请实施例提供的目标对象的动作驱动方法的一个可选的流程示意图，如图6所示，步骤S402可以通过以下步骤实现：

步骤S601，对源语音进行特征提取，得到源语音的语音特征向量。

步骤S602，对语音特征向量依次进行卷积处理和全连接处理，得到源语音在对应时刻的表情参数和嘴部关键点参数。

在一些实施例中，步骤S602可以通过以下步骤实现：

步骤S6021，通过具有特定卷积核的至少两层第一卷积层对语音特征向量依次进行卷积处理，得到卷积处理向量。

步骤S6022，通过至少两层全连接层对卷积处理向量依次进行全连接处理，得到全连接处理向量。

这里，全连接处理向量中包括表情参数对应的向量和所述嘴部关键点参数对应的向量，表情参数对应的向量与所述嘴部关键点参数对应的向量的维度之和，等于全连接处理向量的维度。

请继续参照图6，在一些实施例中，步骤S403可以通过以下步骤实现：

步骤S603，对目标视频的当前视频帧中的目标对象依次进行嘴部参数提取和人脸参数提取，对应得到目标嘴部关键点参数和目标人脸参数。

这里，目标嘴部关键点参数和目标人脸参数是目标对象的参数，当目标视频中具有多帧视频帧时，可以提取每一帧视频帧中目标对象的目标嘴部关键点参数和目标人脸参数。

步骤S604，将目标嘴部关键点参数和目标人脸参数确定为目标参数。

请继续参照图6，在一些实施例中，步骤S404可以通过以下步骤实现：

步骤S605，对源参数和目标参数进行结合，得到结合参数。

这里，对源参数和目标参数进行结合，可以是将用于生成最终的合成图像的参数提取出来，将不用于生成最终的合成图像的参数删除，以得到结合参数。

步骤S606，根据结合参数，对目标视频中的目标对象进行图像重构，得到嘴部轮廓图和UV贴图。

本申请实施例中，重构图像包括嘴部轮廓图和UV贴图(UV map)，其中，嘴部轮廓图用于反应最终所生成合成图像中目标对象的嘴部轮廓，UV贴图用于与嘴部轮廓图结合生成合成图像中目标对象的嘴部区域纹理。

步骤S607，将嘴部轮廓图和UV贴图，确定为重构图像。

本申请实施例中，源参数包括：表情参数和嘴部关键点参数；目标参数包括目标嘴部关键点参数和目标人脸参数；目标人脸参数至少包括：目标姿态参数、目标形状参数和目标表情参数；对应地，步骤S605可以通过以下步骤实现：

步骤S6051，采用表情参数替换目标人脸参数中的目标表情参数，得到替换后的人脸参数。步骤S6052，采用嘴部关键点参数替换目标嘴部关键点参数，得到替换后的嘴部关键点参数。步骤S6053，将替换后的人脸参数和替换后的嘴部关键点参数，确定为结合参数。

对应地，步骤S405中通过重构图像生成合成视频的过程，可以通过以下步骤实现：

步骤S6054，将每一时刻的替换后的人脸参数、替换后的嘴部关键点参数和与目标视频对应的背景图像，输入至图像渲染模型中。步骤S6055，通过图像渲染模型中的第一渲染网络，对替换后的人脸参数和替换后的嘴部关键点参数进行嘴型区域渲染，得到嘴型区域纹理图像。

在一些实施例中，第一渲染网络包括至少一层第二卷积层、至少一层第一下采样层和至少一层第一上采样层；步骤S6055中的嘴型区域渲染过程可以通过以下步骤实现：依次通过第二卷积层和第一下采样层，对替换后的人脸参数和替换后的嘴部关键点参数进行卷积处理和下采样处理，以提取重构图像的深度特征；以及，通过第一上采样层，对替换后的人脸参数和替换后的嘴部关键点参数进行上采样处理，以恢复重构图像的分辨率，并得到嘴型区域纹理图像。

步骤S6056，通过图像渲染模型中的第二渲染网络，对嘴型区域纹理图像和背景图像进行拼接处理，得到当前时刻的合成图像。

在一些实施例中，第二渲染网络包括至少一层第三卷积层、至少一层第二下采样层和至少一层第二上采样层；步骤S6056中的拼接处理过程可以通过以下步骤实现：依次通过第三卷积层和第二下采样层，对嘴型区域纹理图像和背景图像进行卷积处理和下采样处理，以提取嘴型区域纹理图像和背景图像的深度特征；以及，通过第二上采样层，对嘴型区域纹理图像和背景图像进行上采样处理，以恢复嘴型区域纹理图像和背景图像的分辨率，并得到当前时刻的合成图像。

步骤S6057，根据每一时刻的合成图像，确定出同时具有目标对象和源语音的合成视频。

在一些实施例中，上述图像渲染模型用于对每一时刻的重构图像进行渲染，以生成对应时刻的合成图像，且该合成图像中不仅具有目标对象还具有源语音在对应时刻的语音。其中，图像渲染模型至少包括第一渲染网络和第二渲染网络，第一渲染网络用于对重构图像和目标图像分别进行特征提取和嘴型区域渲染，第二渲染网络用于对嘴型区域纹理图像和目标图像进行拼接处理。下面，说明本申请实施例所提供的图像渲染模型的训练方法。

图7是本申请实施例提供的图像渲染模型的训练方法的实现流程示意图，如图7所示，方法包括以下步骤：

步骤S701，将样本重构图像和样本目标图像输入至图像渲染模型中。

在一些实施例中，样本重构图像可以通过以下步骤得到：对样本语音在当前时刻的语音参数进行人脸参数转换处理后得到样本语音参数；对样本目标图像进行参数提取，得到样本目标参数；对样本语音参数和样本目标参数进行结合得到样本结合参数，并根据样本结合参数对样本目标图像中的目标对象进行图像重构，得到该样本重构图像。

在另一些实施例中，样本重构图像还可以通过以下步骤得到：对样本文本进行文本解析，得到样本文本的语言学特征，对样本文本的语言学特征进行声学参数提取，得到样本文本在时域上的声学参数；对该声学参数进行转换处理，得到样本文本在频域上的语音波形，并将语音波形对应的语音，确定为样本语音。然后，对样本语音在当前时刻的语音参数进行人脸参数转换处理后得到样本语音参数；对样本目标图像进行参数提取，得到样本目标参数；对样本语音参数和样本目标参数进行结合得到样本结合参数，并根据样本结合参数对样本目标图像中的目标对象进行图像重构，得到该样本重构图像。

样本目标图像中包括样本目标对象，最终生成的样本合成图像中也包括该样本目标对象。

步骤S702，通过图像渲染模型的第一渲染网络，对样本重构图像和样本目标图像分别进行特征提取和嘴型区域渲染，得到样本嘴型纹理图像。

这里，第一渲染网络包括至少一层第二卷积层、至少一层第一下采样层和至少一层第一上采样层。

在进行特征提取时，可以通过第二卷积层对输入的样本重构图像和样本目标图像对应的参数进行卷积处理，通过第一下采样层对卷积处理后的参数进行下采样处理，以提取样本重构图像和样本目标图像的深度特征，即提取得到第一样本图像特征。在进行嘴型区域渲染时，可以通过第一上采样层对提取到的第一样本图像特征进行上采样处理，以恢复样本重构图像和样本目标图像的分辨率，并得到样本嘴型纹理图像。

本申请实施例中，在每一第一下采样层之前连接有一个第二卷积层，在每一第一上采样层之后也连接有一个第二卷积层，即在每一次下采样处理之前进行一次卷积处理，在每一次上采样处理之后进行一次卷积处理。在一些实施例中，第一下采样层与第一上采样层之间引入跳跃连接，通过跳跃连接来保留不同分辨率的特征信息。

步骤S703，通过图像渲染模型中的第二渲染网络，对样本嘴型纹理图像和样本目标图像进行拼接处理，得到样本合成图像。

这里，第二渲染网络包括至少一层第三卷积层、至少一层第二下采样层和至少一层第二上采样层。

在进行拼接处理时，可以首先通过第三卷积层对输入的样本嘴型纹理图像和样本目标图像对应的参数进行卷积处理，通过第二下采样层对卷积处理后的参数进行下采样处理，以提取样本嘴型纹理图像和样本目标图像的深度特征，即提取得到第二样本图像特征。然后，通过第二上采样层对提取到的第二样本图像特征进行上采样处理，以恢复样本嘴型纹理图像和样本目标图像的分辨率，并得到样本合成图像。

本申请实施例中，在每一第二下采样层之前连接有一个第三卷积层，在每一第二上采样层之后也连接有一个第三卷积层，即在每一次下采样处理之前进行一次卷积处理，在每一次上采样处理之后进行一次卷积处理。在一些实施例中，第二下采样层与第二上采样层之间引入可以引入跳跃连接，通过跳跃连接来保留不同分辨率的特征信息。

步骤S704，将样本合成图像输入至预设损失模型中，得到损失结果。

在一些实施例中，步骤S704可以通过以下步骤实现：

步骤S7041，获取对应于样本重构图像和样本目标图像的真实合成图像。

步骤S7042，将样本合成图像和真实合成图像拼接后输入至预设损失模型中，通过预设损失模型对样本合成图像和真实合成图像进行前后帧相似性损失计算，得到损失结果。

本申请实施例中，在进行前后帧相似性损失计算时，可以计算以下损失函数：图像渲染模型关于真实合成图像和样本合成图像的两个损失之间的损失、生成对抗损失、L1损失、利用L1损失所计算的真实合成图像和样本合成图像在N个激活层所输出的特征图的差异，并对该差异进行线性加权所得到最终的损失、和前后帧相似性损失，其中，损失结果是根据上述损失函数中的至少一个计算得到的，也就是说，可以对图像渲染模型关于真实合成图像和样本合成图像的两个损失之间的损失、生成对抗损失、L1损失、利用L1损失所计算的真实合成图像和样本合成图像在N个激活层所输出的特征图的差异，并对该差异进行线性加权所得到最终的损失、和前后帧相似性损失进行加权求和后，得到该损失结果。

步骤S705，根据损失结果对第一渲染网络和第二渲染网络中的参数进行修正，得到训练后的图像渲染模型。

本申请实施例中，在对图像渲染模型进行训练时，可以采用生成对抗策略，并基于前后帧之间的相似性进行模型训练考虑，进而计算图像渲染模型在每一次预测时的损失结果。如此，能够对图像渲染模型进行准确的训练，且训练得到的图像渲染模型考虑了前后帧之间的连续变化，使得所生成的合成视频中连续两帧视频帧之间的变化更加平滑，从而使得所得到的合成视频更加平滑和真实，能够提高图像渲染模型所生成的合成视频的视觉效果。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种目标对象的动作驱动方法，该目标对象的动作驱动方法是一种文本驱动或语音驱动的3D虚拟人嘴型同步说话视频生成技术，通过结合2D和3D人脸参数来预测嘴型，然后用由视频帧差异性损失训练的渲染网络合成最终的输出图片；本申请实施例解决了语音驱动模型只局限于语音输入以及合成视频不真实和抖动问题。

本申请实施例中，可以利用一段文本或语音来学习2D/3D人脸参数，并由此合成一段逼真的特定目标人物嘴型同步的说话视频。在实现的过程中，首先利用TTS技术将输入文本转化为对应语音，然后采用一个卷积神经网络从语音特征中学习到2D/3D人脸参数，同时对一段目标人物的视频提取出2D/3D人脸参数，通过将学习到的参数替换掉目标人物的参数来重构出新的2D/3D人脸模型，将该重构人脸模型(即重构图像)输入到渲染网络中生成视频帧，从而实现目标人物嘴型同步说话的视频生成。

本申请实施例的方法至少可以应用于智能音箱屏、智能电视、AI教育、虚拟主播和直播等多个项目和产品应用中，可根据输入文本或语音合成出特定目标人物对应的同步说话视频，显著地改善智能产品的人机交互效果和用户体验感。在典型的应用场景，例如AI教育中，本申请实施例的方法可根据教师端的文本或语音输入，自动生成一个同步说话的个性化3D虚拟教师，实现对学生端授课，在提升学生端用户体验的同时，还减少教师端的工作量。又或者，在虚拟主播领域中，通过合成一个个性化虚拟主播，可以让该主播进行游戏实况播报以吸引关注、通过杂谈节目增强互动、或者通过翻唱舞蹈获得高点击量等。

图8是本申请实施例提供的目标对象的动作驱动方法的系统框架图，如图8所示，该系统输入的可以是一段源文本801或者源语音802，若输入的为源文本801，则会经过文本转语音模块803生成对应的源语音，然后源语音经过语音转人脸参数网络804得到对应的人脸参数，这里的人脸参数包括2D嘴部关键点和3D表情参数，所得到的人脸参数会和由人脸参数提取模块805获取到的目标参数结合重构出新的人脸模型806，UV Map 8061和重构后的嘴部关键点8062可由该人脸模型806得到，然后将UV Map 8061和重构后的嘴部关键点8062输入到由前后帧相似性损失训练的两阶段的图像渲染模型807中，生成最终的输出图片808(即合成图像)。

下面对目标对象的动作驱动方法的系统框架中的每一部分进行详细说明。

文本转语音模块803：该模块旨在实现给定一段输入源文本，将其转换成对应的源语音，作为语音转人脸参数网络的输入。

图9是本申请实施例提供的文本转语音模块的框架图，如图9所示，文本转语音模块主要分为三个子模块：文本分析模块901、声学模型模块902和声码器模块903。文本分析模块901主要负责对输入的文本(即源文本)进行解析，决定每个字的发音、语气、语调等，将文本映射到语言学特征，这里的语言学特征包括但不限于：拼音、停顿、标点符号和声调等语言学特征；声学模型模块902主要负责将语言学特征映射为声学参数，这里的声学参数为源文本在时域上的参数表示；声码器模块903负责将声学参数转换为语音波形，这里的语音波形为源文本在频域上的参数表示。

语音转人脸参数网络804：图10是本申请实施例提供的语音转人脸参数网络的框架图，如图10所示，A_I(Input Audio)表示输入的语音片段(即源语音)，由用户说话或上述文本转语音模块所得，F_A(Audio Features)表示语音特征，c₁-c₄(Convolution layer)表示四个卷积层，f₁-f₃(Fully connection layer)表示三个全连接层，T_S(Three dimensionalfacial expression parameters of source)表示源3D表情参数，K_S(2D mouth Keypointsof source)表示源2D嘴部关键点。

语音转人脸参数网络的目的在于从输入的语音片段中预测出对应的源3D人脸表情参数和2D嘴部关键点，其中，3D人脸表情参数具有10维度的系数，而2D嘴部关键点是基于Dlib算法中所使用的20个关键点，由于2D关键点由(x，y)两个坐标系构成，所以20个关键点对应40维度的向量。

对于输入的源语音A_I，首先经过DeepSpeech方法中提出的循环神经网络(RNN)提取出语音特征F_A，然后会进入一个由四个卷积层c₁-c₄和三个全连接层f₁-f₃组成的卷积神经网络(CNN)，最后由CNN得到两组人脸参数，分别为3D人脸表情参数T_S和2D嘴部关键点K_S。其中，所提取的语音特征F_A可以是一个16×29的张量，卷积层c₁-c₄均采用3×1的卷积核，将F_A的维度分别降低成8×32、4×32、2×64和1×64，卷积层c₄输出的特征图会经过三个全连接层f₁-f₃后，分别得到128、64和50维的向量。

人脸参数提取模块805：该模块旨在从目标人物的视频帧中提取出目标人物2D嘴部关键点位置和3D人脸参数。其中，2D嘴部关键点通过Dlib算法得到，给定一张图片，该算法会预测出人脸上68个关键点，如图11所示，是本申请实施例提供的Dlib算法效果图，其中左图1101是原始图片，右图1102中人脸上的点是Dlib算法预测出的关键点。在本申请实施例中，可以只采用所预测的20个嘴部关键点作为2D人脸参数。而3D人脸参数则是，对于每张人脸图片会预测出62维的3D人脸参数，包括12维姿态参数、40维形状参数和10维表情参数。人脸参数提取模块得到的2D嘴部关键点和3D人脸表情参数会被语音转人脸参数网络中得到的结果所替代，而目标人物的姿态参数和形状参数保留，已得到重新结合的3D人脸参数。然后，利用重新结合的3D人脸参数对目标人物进行人脸重构并得到对应的UV Map，而新的2D嘴部关键点信息将直接作为后续渲染的输入之一。

图像渲染模型807：图12是本申请实施例提供的图像渲染模型的框架图，如图12所示，给定2D嘴部关键点、UV Map和背景图像，渲染网络的目的是合成最终的嘴型同步说话视频帧。在实现的过程，可以首先对20个重构得到的嘴部关键点进行连接得到一个多边形作为嘴部轮廓，即K_R(Reconstructed mou th keypoints)，然后基于特定算法从3D人脸参数中映射出UV Map，即U_R。K_R和U_R的分辨率均为256×256，两者进行拼接后作为图像渲染模型的输入。图像渲染模型分为两个阶段，第一阶段(即第一个渲染网络)合成嘴型区域纹理r₁，r₁和目标视频背景帧b_g(即背景图像)进行拼接作为第二个渲染网络的输入；第二阶段(即第二个渲染网络)结合背景图像合成最终的输出r₂。两个渲染网络采用的结构均为U-Net网络，U-Net网络是一个对输入不断采用下采样和卷积操作来提取深度特征，然后通过逐步的上采样层恢复其分辨率，而下采样和上采样之间引入了跳跃连接来保留不同分辨率的特征信息。

在一些实施例中，在训练渲染网络时，可以采用了基于条件的生成式对抗网络(GAN，Generative Adversarial Networks)，如图13所示，是本申请实施例提供的基于条件的GAN框架图，对于渲染网络的预测值F(即合成图像F)和真实值R(即真实图像R)，会分别和渲染网络的输入I(即输入图像I)拼接后送入判别器1301，得到关于真实值与预测值的两个损失L_{D_fake}和L_{D_real}。判别器1301最终的损失函数L_D通过以下公式(1-1)表示为：

L_D＝(L_{D_fake}+L_{D_real})*0.5 (1-1)；

而渲染网络可看成生成器，其损失函数包括生成对抗损失L_{G_GAN}，L_{G_GAN}和判别器中的L_{D_fake}是一样的，只不过在生成器中希望最大化该值以欺骗判别器，而在判别器中则希望最小化该值来辨别出合成图片。此外，为了使得合成图像F和真实图像R更加接近，生成器中还采用了L1损失，如以下公式(1-2)所示：

L_{G_L1}＝L₁(F,R) (1-2)；

其中，L_{G_L1}表示L1损失对应的损失值。

此外，还在特征层面上对合成图像和真实图像进行了约束，例如，分别将合成图像和真实图像输入到VGG19网络中，然后利用L1损失分别计算两者在五个激活层输出的特征图的差异并进行线性加权得到最终的损失L_{G_VGG}，如以下公式(1-3)所示：

其中，Relu_fi和Relu_ri分别表示合成图像和真实图像在第i个激活层的特征图。

上述的损失都是基于每一帧进行单独计算，在帧与帧之间没有加入任何约束，这会导致最终合成视频出现不平滑或抖动现象。为此，本申请实施例还引入了一个前后帧相似性损失L_{G_Smi}来减少合成视频中前后两帧与真实视频的差异性。请继续参照图8，对于合成的第t帧，首先计算合成的第t帧与第t-1帧之间的差异性，记为d_fake，同样地，计算真实视频中第t帧与第t-1帧的差异性，记为d_real，L_{G_Smi}的目的是减少d_fake和d_real的差距，即min[L₁(d_fake,d_real)]。

那么，生成器(即图像渲染模型)的最终损失函数L_G则为以下公式(1-4)：

L_G＝L_{G_GAN}+α*L_{G_L1}+β*L_{G_VGG}+γ*L_{G_Smi} (1-4)；

其中，α、β和γ均为超参数。

本申请实施例提供的方法，与其他相关技术中的虚拟人同步说话视频生成算法相比，申请实施例的技术方案能合成出在时间上更加平滑与真实的结果。其中，图14是相关技术中的方法合成的虚拟人同步说话视频，如图14所示，合成的视频帧往往会出现不够平滑与不够真实的情况。

而本申请实施例通过结合2D和3D人脸参数以及引入前后帧相似性损失，则克服了上述难题，所生成的最终合成视频的效果如图15所示，是连续的十帧视频帧，这十帧视频帧的顺序为从左到右，从上到下。由图15可以看出，本申请实施例所生成的合成视频更加平滑与真实，视觉效果更好。

需要说明的是，本申请实施例的方法属于文本驱动方法，通过结合成熟的TTS技术实现给定一段文本以及任意一段目标人物视频即可生成目标人说话视频。本申请实施例典型的应用场景包括近年来兴起的AI教育产业，与目前的语音驱动生成虚拟教师方案不同，本申请实施例对于输入的要求扩展成文本或语音，可进一步增强用户体验感。

在一些实施例中，上述的语音转人脸参数网络中对于利用DeepSpeech提取出的语音特征采用了一个卷积神经网络来预测人脸参数。但是对于该模块，本申请实施例并不限定深度卷积网络的模型类型，例如还可以使用循环神经网络或生成对抗网络来代替卷积神经网络，可根据实际应用或产品对于精度和效率的要求来选择。同样地，图像渲染模型中的两个渲染网络不仅可采用U-Net结构，其他编码-解码结构也均可使用，例如沙漏网络。

下面继续说明本申请实施例提供的目标对象的动作驱动装置354实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器350的目标对象的动作驱动装置354中的软件模块可以是服务器300中的目标对象的动作驱动装置，所述装置包括：

获取模块3541，用于获取源语音和目标视频，所述目标视频中包括目标对象；

人脸参数转换模块3542，用于对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数；

参数提取模块3543，用于对所述目标视频进行参数提取，得到目标参数；

图像重构模块3544，用于根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像；

生成模块3545，用于通过所述重构图像生成合成视频，其中，所述合成视频中具有所述目标对象，且所述目标对象的动作与所述源语音对应。

在一些实施例中，所述获取模块还用于：获取源文本，并对所述源文本进行文本解析，得到所述源文本的语言学特征；对所述语言学特征进行声学参数提取，得到所述源文本在时域上的声学参数；对所述声学参数进行转换处理，得到所述源文本在频域上的语音波形；将所述语音波形对应的语音，确定为所述源语音。

在一些实施例中，所述源参数包括：表情参数和嘴部关键点参数；所述人脸参数转换模块还用于：对所述源语音进行特征提取，得到所述源语音的语音特征向量；对所述语音特征向量依次进行卷积处理和全连接处理，得到所述源语音在对应时刻的所述表情参数和所述嘴部关键点参数。

在一些实施例中，所述人脸参数转换模块还用于：通过具有特定卷积核的至少两层第一卷积层对所述语音特征向量依次进行所述卷积处理，得到卷积处理向量；通过至少两层全连接层对所述卷积处理向量依次进行所述全连接处理，得到全连接处理向量；其中，所述全连接处理向量中包括所述表情参数对应的向量和所述嘴部关键点参数对应的向量，所述表情参数对应的向量与所述嘴部关键点参数对应的向量的维度之和，等于所述全连接处理向量的维度。

在一些实施例中，所述参数提取模块还用于：对所述目标视频的当前视频帧中的所述目标对象依次进行嘴部参数提取和人脸参数提取，对应得到目标嘴部关键点参数和目标人脸参数；将所述目标嘴部关键点参数和所述目标人脸参数确定为所述目标参数。

在一些实施例中，所述图像重构模块还用于：对所述源参数和所述目标参数进行结合，得到所述结合参数；根据所述结合参数，对所述目标视频中的目标对象进行图像重构，得到嘴部轮廓图和UV贴图；将所述嘴部轮廓图和所述UV贴图，确定为所述重构图像。

在一些实施例中，所述源参数包括：表情参数和嘴部关键点参数；所述目标参数包括目标嘴部关键点参数和目标人脸参数；所述目标人脸参数至少包括：目标姿态参数、目标形状参数和目标表情参数；所述图像重构模块还用于：采用所述表情参数替换所述目标人脸参数中的所述目标表情参数，得到替换后的人脸参数；采用所述嘴部关键点参数替换所述目标嘴部关键点参数，得到替换后的嘴部关键点参数；将所述替换后的人脸参数和所述替换后的嘴部关键点参数，确定为所述结合参数。

在一些实施例中，所述生成模块还用于：将每一时刻的所述替换后的人脸参数、所述替换后的嘴部关键点参数和与所述目标视频对应的背景图像，输入至图像渲染模型中；通过所述图像渲染模型中的第一渲染网络，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行嘴型区域渲染，得到嘴型区域纹理图像；通过所述图像渲染模型中的第二渲染网络，对所述嘴型区域纹理图像和所述背景图像进行拼接处理，得到当前时刻的合成图像；根据每一时刻的所述合成图像，确定出同时具有所述目标对象和所述源语音的所述合成视频。

在一些实施例中，所述第一渲染网络包括至少一层第二卷积层、至少一层第一下采样层和至少一层第一上采样层；所述渲染模块还用于：依次通过所述第二卷积层和所述第一下采样层，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行卷积处理和下采样处理，以提取所述重构图像的深度特征；以及，通过所述第一上采样层，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行上采样处理，以恢复所述重构图像的分辨率，并得到所述嘴型区域纹理图像。

在一些实施例中，所述第二渲染网络包括至少一层第三卷积层、至少一层第二下采样层和至少一层第二上采样层；所述渲染模块还用于：依次通过所述第三卷积层和所述第二下采样层，对所述嘴型区域纹理图像和所述背景图像进行卷积处理和下采样处理，以提取所述嘴型区域纹理图像和所述背景图像的深度特征；以及，通过所述第二上采样层，对所述嘴型区域纹理图像和所述背景图像进行上采样处理，以恢复所述嘴型区域纹理图像和所述背景图像的分辨率，并得到所述当前时刻的合成图像。

在一些实施例中，所述图像渲染模型通过以下步骤进行训练：将样本重构图像和样本目标图像输入至所述图像渲染模型中；通过所述图像渲染模型的第一渲染网络，对所述样本重构图像和所述样本目标图像分别进行特征提取和嘴型区域渲染，得到样本嘴型纹理图像；通过所述图像渲染模型中的第二渲染网络，对所述样本嘴型纹理图像和所述样本目标图像进行拼接处理，得到样本合成图像；将所述样本合成图像输入至预设损失模型中，得到损失结果；根据所述损失结果对所述第一渲染网络和所述第二渲染网络中的参数进行修正，得到训练后的图像渲染模型。

在一些实施例中，所述图像渲染模型通过以下步骤进行训练：获取对应于所述样本重构图像和所述样本目标图像的真实合成图像；将所述样本合成图像和真实合成图像拼接后输入至所述预设损失模型中，通过所述预设损失模型对所述样本合成图像和所述真实合成图像进行前后帧相似性损失计算，得到所述损失结果。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，R ead Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种目标对象的动作驱动方法，其特征在于，所述方法包括：

获取源语音和目标视频，所述目标视频中包括目标对象；

对所述目标视频进行参数提取，得到目标参数；

2.根据权利要求1所述的方法，其特征在于，所述获取源语音，包括：

获取源文本，并对所述源文本进行文本解析，得到所述源文本的语言学特征；

对所述语言学特征进行声学参数提取，得到所述源文本在时域上的声学参数；

对所述声学参数进行转换处理，得到所述源文本在频域上的语音波形；

将所述语音波形对应的语音，确定为所述源语音。

3.根据权利要求1所述的方法，其特征在于，所述源参数包括：表情参数和嘴部关键点参数；

所述对所述源语音在每一时刻的语音参数进行人脸参数转换处理，得到所述源语音在对应时刻的源参数，包括：

对所述源语音进行特征提取，得到所述源语音的语音特征向量；

对所述语音特征向量依次进行卷积处理和全连接处理，得到所述源语音在对应时刻的所述表情参数和所述嘴部关键点参数。

4.根据权利要求3所述的方法，其特征在于，所述对所述语音特征向量依次进行卷积处理和全连接处理，得到所述源语音在对应时刻的所述表情参数和所述嘴部关键点参数，包括：

通过具有特定卷积核的至少两层第一卷积层对所述语音特征向量依次进行所述卷积处理，得到卷积处理向量；

通过至少两层全连接层对所述卷积处理向量依次进行所述全连接处理，得到全连接处理向量；其中，所述全连接处理向量中包括所述表情参数对应的向量和所述嘴部关键点参数对应的向量，所述表情参数对应的向量与所述嘴部关键点参数对应的向量的维度之和，等于所述全连接处理向量的维度。

5.根据权利要求1所述的方法，其特征在于，所述对所述目标视频进行参数提取，得到目标参数，包括：

对所述目标视频的当前视频帧中的所述目标对象依次进行嘴部参数提取和人脸参数提取，对应得到目标嘴部关键点参数和目标人脸参数；

将所述目标嘴部关键点参数和所述目标人脸参数确定为所述目标参数。

6.根据权利要求1所述的方法，其特征在于，所述根据对所述源参数和所述目标参数进行结合所得到的结合参数，对所述目标视频中的目标对象进行图像重构，得到重构图像，包括：

对所述源参数和所述目标参数进行结合，得到所述结合参数；

根据所述结合参数，对所述目标视频中的目标对象进行图像重构，得到嘴部轮廓图和UV贴图；

将所述嘴部轮廓图和所述UV贴图，确定为所述重构图像。

7.根据权利要求6所述的方法，其特征在于，所述源参数包括：表情参数和嘴部关键点参数；所述目标参数包括目标嘴部关键点参数和目标人脸参数；所述目标人脸参数至少包括：目标姿态参数、目标形状参数和目标表情参数；

所述对所述源参数和所述目标参数进行结合，得到所述结合参数，包括：

采用所述表情参数替换所述目标人脸参数中的所述目标表情参数，得到替换后的人脸参数；

采用所述嘴部关键点参数替换所述目标嘴部关键点参数，得到替换后的嘴部关键点参数；

将所述替换后的人脸参数和所述替换后的嘴部关键点参数，确定为所述结合参数。

8.根据权利要求7所述的方法，其特征在于，所述通过所述重构图像生成合成视频，包括：

将每一时刻的所述替换后的人脸参数、所述替换后的嘴部关键点参数和与所述目标视频对应的背景图像，输入至图像渲染模型中；

通过所述图像渲染模型中的第一渲染网络，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行嘴型区域渲染，得到嘴型区域纹理图像；

通过所述图像渲染模型中的第二渲染网络，对所述嘴型区域纹理图像和所述背景图像进行拼接处理，得到当前时刻的合成图像；

根据每一时刻的所述合成图像，确定出同时具有所述目标对象和所述源语音的所述合成视频。

9.根据权利要求8所述的方法，其特征在于，所述第一渲染网络包括至少一层第二卷积层、至少一层第一下采样层和至少一层第一上采样层；

所述通过所述图像渲染模型中的第一渲染网络，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行嘴型区域渲染，得到嘴型区域纹理图像，包括：

依次通过所述第二卷积层和所述第一下采样层，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行卷积处理和下采样处理，以提取所述重构图像的深度特征；以及，

通过所述第一上采样层，对所述替换后的人脸参数和所述替换后的嘴部关键点参数进行上采样处理，以恢复所述重构图像的分辨率，并得到所述嘴型区域纹理图像。

10.根据权利要求8所述的方法，其特征在于，所述第二渲染网络包括至少一层第三卷积层、至少一层第二下采样层和至少一层第二上采样层；

所述通过所述图像渲染模型中的第二渲染网络，对所述嘴型区域纹理图像和所述背景图像进行拼接处理，得到当前时刻的合成图像，包括：

依次通过所述第三卷积层和所述第二下采样层，对所述嘴型区域纹理图像和所述背景图像进行卷积处理和下采样处理，以提取所述嘴型区域纹理图像和所述背景图像的深度特征；以及，

通过所述第二上采样层，对所述嘴型区域纹理图像和所述背景图像进行上采样处理，以恢复所述嘴型区域纹理图像和所述背景图像的分辨率，并得到所述当前时刻的合成图像。

11.根据权利要求8所述的方法，其特征在于，所述图像渲染模型通过以下步骤进行训练：

将样本重构图像和样本目标图像输入至所述图像渲染模型中；

通过所述图像渲染模型的第一渲染网络，对所述样本重构图像和所述样本目标图像分别进行特征提取和嘴型区域渲染，得到样本嘴型纹理图像；

通过所述图像渲染模型中的第二渲染网络，对所述样本嘴型纹理图像和所述样本目标图像进行拼接处理，得到样本合成图像；

将所述样本合成图像输入至预设损失模型中，得到损失结果；

根据所述损失结果对所述第一渲染网络和所述第二渲染网络中的参数进行修正，得到训练后的图像渲染模型。

12.根据权利要求11所述的方法，其特征在于，所述将所述样本合成图像输入至预设损失模型中，得到损失结果，包括：

获取对应于所述样本重构图像和所述样本目标图像的真实合成图像；

将所述样本合成图像和真实合成图像拼接后输入至所述预设损失模型中，通过所述预设损失模型对所述样本合成图像和所述真实合成图像进行前后帧相似性损失计算，得到所述损失结果。

13.一种目标对象的动作驱动装置，其特征在于，所述装置包括：

14.一种目标对象的动作驱动系统，其特征在于，至少包括：终端和服务器；

所述服务器，用于响应于所述动作驱动请求，实现权利要求1至12任一项所述的目标对象的动作驱动方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现权利要求1至12任一项所述的目标对象的动作驱动方法。