CN115209180A

CN115209180A - 视频生成方法以及装置

Info

Publication number: CN115209180A
Application number: CN202210623531.0A
Authority: CN
Inventors: 王中坚
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-18
Anticipated expiration: 2042-06-02
Also published as: CN115209180B

Abstract

本说明书实施例提供视频生成方法以及装置，其中所述视频生成方法包括：接收供虚拟对象参考的给定文本以及包含有所述虚拟对象形象的参考视频；根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量；提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型；基于所述目标面部驱动模型和所述给定文本创建目标视频，实现了自动化的产出用户指定形象、指定文稿的虚拟对象视频，生成的虚拟对象视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低虚拟对象创建的门槛，为虚拟对象形象视频创作带去高效的流程和新体验。

Description

视频生成方法以及装置

技术领域

本说明书实施例涉及人工智能技术领域，特别涉及一种视频生成方法。

背景技术

随着元宇宙、虚拟人和数字人概念的盛行，采用虚拟形象进行视频创作、直播的需求不断提高，其中，虚拟形象源于ACG(Animation、Comics与Games，即动画、漫画与游戏)文化，利用虚拟形象和声音进行视频内容生产的形式，虚拟形象技术可以快速高效的产出视频内容，降低内容制作方(诸如电视台、报社、自媒体、视频博主)的制作成本，因此越来越受关注；虚拟形象视频在创作过程中，用户输入一段播报文稿，利用语音合成技术将文本转换为语音，并利用语音驱动技术驱动虚拟形象的口型和肢体与语音内容对齐，形象上多以2D或3D模型的形式出现；而在众多虚拟形象之中，具有真人风格的虚拟形象由于具备更强的真实性，更强的自然性，从而受到了更多的关注。

现有技术中，对于真人风格的虚拟形象进行创建的过程，往往采用语音驱动口型算法进行实施，具体的驱动形式大致分为三种，其一是语音直接驱动图像，其二是语音驱动三维面部模型(如Nvidia的Audio2Face)，其三是语音驱动面部关键点。虽然上述方法能够满足实际应用场景的使用需求，但是因为生成的虚拟形象的质量较低，且真实感无法满足观看需求，且会以为外界因素导致形象产生视觉差异，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种视频生成方法。本说明书一个或者多个实施例同时涉及一种视频生成装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了第一种视频生成方法，包括：

接收供虚拟对象参考的给定文本以及包含有所述虚拟对象形象的参考视频；

根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量；

提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型；

基于所述目标面部驱动模型和所述给定文本创建目标视频。

根据本说明书实施例的第二方面，提供了第二种视频生成方法，包括：

接收供虚拟主播播报的给定文本以及包含有所述虚拟主播形象的参考视频；

基于所述目标面部驱动模型和所述给定文本创建目标直播视频。

根据本说明书实施例的第三方面，提供了第三种视频生成方法，包括：

接收供虚拟参会对象发言的给定文本以及包含有所述虚拟参会对象形象的参考视频；

基于所述目标面部驱动模型和所述给定文本创建目标会议视频。

根据本说明书实施例的第四方面，提供了第四种视频生成方法，包括：

接收供虚拟教师讲课的给定文本以及包含有所述虚拟教师形象的参考视频；

基于所述目标面部驱动模型和所述给定文本创建目标课堂视频。

根据本说明书实施例的第五方面，提供了第一种视频生成装置，包括：

接收模块，被配置为接收供虚拟对象参考的给定文本以及包含有所述虚拟对象形象的参考视频；

获取模块，被配置为根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量；

提取模块，被配置为提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型；

创建模块，被配置为基于所述目标面部驱动模型和所述给定文本创建目标视频。

根据本说明书实施例的第六方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该指令被处理器执行时实现任意一项所述视频生成方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一项所述视频生成方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频生成方法的步骤。

本说明书一个实施例实现了通过给定文本的语音内容特征，驱动基于参考视频中虚拟主播形象创建的参考面部模型，得到目标面部驱动模型，并通过目标面部驱动模型给定文本创建目标视频，实现了自动化的产出用户指定形象、指定文稿的虚拟对象视频，生成的虚拟对象视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低虚拟对象创建的门槛，为虚拟对象形象视频创作带去高效的流程和新体验。

附图说明

图1是本说明书一个实施例提供的第一种视频生成方法的流程图；

图2是本说明书一个实施例提供的第二种视频生成方法的流程图；

图3是本说明书一个实施例提供的第三种视频生成方法的流程图；

图4是本说明书一个实施例提供的第四种视频生成方法的流程图；

图5是本说明书一个实施例提供的一种视频生成方法的处理过程流程图；

图6是本说明书一个实施例提供的一种视频生成方法的处理过程示意图；

图7是本说明书一个实施例提供的第一种视频生成装置的结构示意图；

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

GAN：Generative Adversarial Network，生成对抗网络，一种广泛引用于图像编辑、生成的AI技术。

LSTM：Long Short-Term Memory，长短期记忆网络，常用的提取时间序列特征的深度学习模型之一。

3DMM：3D Morphable models，三维可变形面部模型，常用于三维面部重建。

PNCC：Projected Normalized Coordinate Code，投影归一化坐标编码，一种描述三维模型顶点位置关系的编码方法。

blendshape：混合形状，常用于三维模型的变形操作。

dense flow：稠密运动场，用于表征前后帧图像对应像素的位移。

三维重建：本文所指的三维重建一般是依靠相机采集的图像，重建出物体三维模型的技术。

图像生成模型：本文所指的图像生成模型一般指最后输出为一张图像的模型，对输入没有明确要求。

在本说明书中，提供了视频生成方法，本说明书同时涉及对应的视频生成装置，计算设备，计算机可读存储介质以及计算机程序，在下面的实施例中逐一进行详细说明。

实际应用中，对于真人风格的虚拟形象进行创建的过程，往往采用语音驱动口型算法进行实施，具体的驱动形式大致分为三种，其一是语音直接驱动图像，这种方案只需提供带音频的视频序列，即可通过端到端的方式训练一个生成模型，生产阶段任意给定一段音频和某一视频片段，即可生成口型与音频对应的视频；其二是语音驱动三维面部模型(如Nvidia的Audio2Face)，这种方法通过学习音频特征和三维模型blendshape之间的映射，渲染引擎根据blendshape值控制三维模型的形变来达到语音驱动模型口型的目的。这类方法直接适用于VR和游戏领域，生成结果十分稳定；其三是语音驱动面部关键点，进而驱动面部图像的两步法，这类方法通常先学习一个音频特征到面部关键点的映射，进而通过一个图像对图像翻译模型，根据参考图像将关键点图像转换为真实面部图像。

然而，对于第一种方法，由于使用的模型缺乏几何约束，无法保证生成质量的稳定性，另外在训练阶段需要提供大量不同身份人的音视频片段，且无法在指定身份人的数据上微调来提升效果；第二种方法获得完善的三维模型通常需要耗费大量的人力物力，并且受制于模型精细程度和纹理质量，这种方法生成面部的视觉真实感通常不足，无法应用于虚拟形象的场景；第三种方法生成的真人风格虚拟形象有较强的真实感，但关键点是稀疏的二维的，生成的图像不能准确的再现面部的三维特征，且受制于角度和光照，当面部姿态变化较大时，生成的结果会出现扭曲，同时这类模型通常不包含时序依赖信息，当生成图像拼接为视频时会出现突变和抖动。

也就是说，语音直接驱动图像的方法因为缺乏几何约束，会导致生成的虚拟形象质量无法保证，稳定性同样无法保证，如说话场景中口型与图像中的人物不匹配，出现口型动作幅度超过了该人物的正常范围的情况，而且生成的面部图像随着姿态的变化而变形，出现大于45度的侧脸、仰头低头等动作时，面部会发生显著的扭曲的情况。而通过语音驱动三维面部模型的方法，由于三维面部模型的创建过程，往往需要专业的建模师进行模型的创建，以保证实现生成稳定、细致的模型，这个过程需要采用专业三维扫描设备在专门的场所里采集点云，后期还需要手工进行修整，这无疑会具备较长的制作周期，以及人力、设备的成本投入；至于语音驱动面部关键点，进而驱动面部图像的两步法，由于面部关键点的数量是稀疏的，如面部中的眼睛、鼻子、嘴巴等关键点，这些关键点的数量不足就会导致，生成的图像不能准确的再现面部的三维特征，而且这种方式受限于面部姿态，在角度和光线不是理想情况下生成的模型也会受到较大的影响，如某个关键点由于处在阴影当中，造成识别上的困难，最终根据识别之后的关键点生成的模型，处于阴影之中的关键点对应的模型位置，生成效果就会不理想。

有鉴于此，本说明书的意义实施例中的视频生成方法，通过配置参考视频中虚拟对象形象的参考面部模型，并通过语音对参考面部模型进行驱动得到目标面部驱动模型实现根据目标面部驱动模型与给定的文本创建目标视频的过程，由于采取了将参考视频中的虚拟对象形象进行了建模的形式，最终得到的目标视频中，虚拟对象形象在进行表情变化的过程中受到了来自于面部参考模型的几何约束实现质量与稳定性的保证；并且，参考面部模型的创建过程是自动化的，避免了专业建模师建模时出现的人力成本消耗，以及制作周期长的问题；此外通过语音驱动参考面部模型的过程中并没有仅驱动参考面部模型中的关键点，这就让创建出的目标视频不会受限于面部姿态。

图1示出了根据本说明书一个实施例提供的第一种视频生成方法的流程图，具体包括以下步骤。

步骤S102：接收供虚拟对象参考的给定文本以及包含有所述虚拟对象形象的参考视频。

具体的，本说明书一实施例提供的视频生成方法应用于服务端，用于创建虚拟对象进行相关文稿的播报场景下的视频，需要说明的是，虚拟对象的播报场景，包括但不限于新闻播报、科普讲解、电影解说、网课、视频会议等，任意由虚拟对象形象进行播报的视频都可以根据本说明书一个实施例提供的视频生成方法进行生成。

其中，给定文本可以理解为，用户需要生成的目标视频中，虚拟对象进行播报的内容；虚拟对象形象可以理解为，生成的目标视频中出现的虚拟对象的视觉图像；参考视频可以理解为，包含用户需要生成的目标视频中，虚拟对象的虚拟对象形象的视频，是目标视频中虚拟对象的虚拟对象形象来源；需要说明的是，本实施例对参考视频中虚拟对象形象不作限制，可以是真人风格的虚拟形象，也可以是动画风格的虚拟形象，并且参考视频中的虚拟对象形象也不只限制为人类形态，同样可以是动物、机器人、精灵等不同的形态，具体的形态类型由实际使用场景决定，本实施例不进行限定，相应的，参考视频的时长可以根据实际需求设定，本实施例在此不作任何限定。

此外，为了保证生成的目标视频具有更好的播放效果，参考视频中还可以包含常用语和常用动作表情，其中，常用语包含的词汇越多，常用动作表情包含的动作表情越多，视频生成方法的泛用性就会越好。

步骤S104：根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量。

具体的，获取了参考视频之后，需要基于参考视频创建参考视频中包含的虚拟对象形象的参考面部模型。

其中，参考面部模型可以理解为，针对参考视频中包含的虚拟对象形象创建的面部模型，通过驱动参考面部模型中的表情分量，进行目标视频的创建，可以保证得到的目标视频中的虚拟对象形象，具备几何约束的特征，保证其真实性与自然性。具体的参考面部模型创建可以使用3DMM，3DDFA，DECA等技术实现，具体采用的技术手段由实际使用场景决定，本实施例在此不作任何限定；参考面部模型的表情分量可以理解为，用于表征参考面部模型的表情的数据，需要说明的是，参考面部模型是根据参考视频创建的，其表情分量可以与参考视频中的虚拟对象形象的表情相关，也可以是预设的一个固定表情分量，以实现根据表情分量用于后续处理。其中，关于表情分量的确定方式可以根据实际使用场景决定，本实施例在此不作任何限定。

基于此，对所述参考视频中的虚拟对象形象进行面部参数的提取，之后基于提取出的面部参数创建参考面部模型，其中创建的方式可以采用3DMM，3DDFA，DECA等技术进行，得到的参考面部模型可以实现对参考视频中的虚拟对象形象进行展示，并且得到的参考面部模型具备变形处理的能力，即blendshape。由于采用单目RGB相机以面部重建算法自动化为虚拟对象形象创建三维模型，因此无需人工采集制作，极大的降低了成本，缩短制作时间。

进一步的，获取参考面部模型之后，需要对参考面部模型进行变形处理，而为了避免在参考面部模型进行变形处理的过程中，出现变形错误，导致参考面部模型与实际面部的表情不符的问题，在本实施例中，具体实现方式如下：

对所述参考视频进行面部特征提取，获得参考面部参数；基于所述参考面部参数创建初始面部模型；对所述初始面部模型的面部像素点进行标记，得到参考面部模型。

其中，参考面部参数可以理解为，记载着参考视频中的虚拟对象形象的面部特征的参数；初始面部模型可以理解为，通过相关的面部建模策略对参考视频中的虚拟对象形象进行面部建模后，得到的面部模型；面部像素点可以理解为，初始面部模型中，面部区域所对应的全局像素点。

基于此，对参考视频中虚拟对象形象进行面部特征提取后，可以得到参考面部参数，之后根据参考面部参数创建出初始面部模型，以此为基础确定初始面部模型的面部区域中包含的像素点，并进行标记；需要说明的是，标记的方式可以是将每个像素点的位置信息存储至相关的存储空间，也可以是为各个像素点配置不同的颜色，使得像素点之间得以区分，具体采用的标记方式由实际使用场景决定，本实施例不进行限定；将面部区域中包含的全部像素点均完成标记后，即可得到参考面部模型，以用于后续可以根据参考面部模型的表情分量更新得到目标面部驱动模型。

举例说明，用户在需要人物甲的形象去播报一段广告词A时，首先获取人物甲的相关参考视频B，之后检测视频中的面部，并采用Deep3DFaceRecon提取面部的三维模型参数，该参数包含面部形状、表情、姿态和相机位姿等信息，根据上述信息，使用渲染器根据三维面部参数构建三维面部模型，即初始面部模型；之后采用归一化坐标编码(NCC)的方式给三维模型进行上色处理，以根据处理结果得到参考面部模型，此时得到的参考面部模型为初始面部模型投影的归一化坐标编码渲染图(PNCC)。类似的，用户若需要以兔子的形象去播报一段广告词，同样的对包含该兔子形象的参考视频中的兔子进行面部特征识别，并创建相应的三维模型，之后根据兔子的三维模型进行后续的相关处理与基于人类面部进行的处理类似，接下来的实施例中不再进行赘述。

综上，通过对初始面部模型的面部像素点进行标记，得到参考面部模型，其中每一个像素点都被区分，使得后续对参考面部模型进行变形处理过程中，可以精确定位每一个像素点，让变形过程中的像素点位置变化不会出现偏差。

进一步的，对部像素点进行标记时，为了避免重复标记的问题导致最终出现像素点标记错乱，并最终影响对参考面部模型的变形，在本实施例中，具体实现方式如下：

确定所述初始面部模型上各个面部像素点的坐标编码；为各个坐标编码对应的像素点配置不同的颜色，得到参考面部模型。

其中，坐标编码可以理解为，初始面部模型上各个面部像素点对应的位置信息，在实际使用场景中，可以根据初始面部模型创建出的一个坐标系，初始面部模型上的像素点所处的坐标。

基于此，扫描初始面部模型，确定初始面部模型中每个像素点的位置信息，需要说明的是，初始面部模型在显示设备中展示的过程中，由于其展示大小可调节，所以其对应的像素点不能取决于展示设备屏幕的像素点，而是以初始面部模型不可分割的最小颜色块儿作为面部像素点。

沿用上例，扫描初始面部模型，确定初始面部模型中的每个像素点的位置信息，并为不同位置的每个像素点配置不同的颜色，得到参考面部模型。

综上，通过确定初始面部模型上的像素点的位置信息实现对各个像素点的标记，使不同的像素点在处理过程中不会出现重复处理或处理错误的情况，保证了后续对参考面部模型进行变形过程中，变形的准确性。

步骤S106：提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型。

其中，由于采用了语音驱动面部模型的方式，得到关于虚拟对象的目标视频，因此确定会涉及将给定文本转换成语音的过程；而由于转换得到的语音为合成语音，其与真人语音存在音色、语速、节奏上的不同；因此，在通过合成语音去驱动面部模型进行表情变换时，为了保证表情的准确性与自然感，需要舍弃与语音中的音色、语速、节奏关联的特征，以实现面部模型的表情变换只与语音的内容特征相关。

在此基础上，语音内容特征是指由给定文本转换为语音之后，给定文本对应语音的内容特征，且提取得到的语音内容特征不具备感情色彩，也就是说，语音内容特征中不包含关联音色、音调等特征，仅与给定文本的文本内容相关；目标面部驱动模型可以理解为，根据给定文本对应语音，进行表情变换后的面部模型。

基于此，提取给定文本的语音内容特征，可以采用自然语言处理技术，提取给定文本的语义，也可以通过将给定文本进行语音转换之后，使用语音识别技术提取其语音内容特征。之后根据得到的语音内容特征驱动参考面部模型的表情分量，实现面部模型的表情变换，得到目标面部驱动模型。通过此方式，可以实现通过语音信息驱动面部模型的口型、表情和姿态发生变化，实现语音特征到面部特征的映射，完成语音的驱动面部模型的表情变换操作。

进一步的，提取给定文本对应语音的语音内容特征过程，在本实施例中，具体实现形式如下：

对所述给定文本进行语音转换，得到给定语音；将所述给定语音进行内容特征提取，得到语音内容特征。

其中，给定语音可以理解为，将给定文本进行语音转换之后，得到的与给定文本对应的语音；需要说明的是，对给定语音进行内容特征提取的过程可以使用DeepSpeech、SpeechSplit、wenet等技术手段进行提取，具体采用的提取手段由实际使用场景决定，本实施例不进行限定。

基于此，对给定文本进行语音转换，得到对应的给定语音，之后基于预设的语音内容特征提取技术手段，如DeepSpeech、SpeechSplit或wene进行提取，得到与语音的音色、语速、节奏无关，只与说话内容相关的语音内容特征。

沿用上例，对文本A进行语音转换，得到对应语音A1，之后使用语音识别模型wenet提取语音的内容特征，其中，wenet是一个开源语音识别算法，由于在大量的中文语音数据集上进行训练，因此wenet可以提取说话人无关的语音内容特征，得到语音A1对应的语音内容特征a。

综上，通过将给定文本进行语音转换，并将得到的语音进行语音内容特征提取，得到了语音内容特征，使得后续基于语音驱动面部模型的过程可以排除音色、语速、节奏等干扰项的影响，提升准确度。

进一步的，基于语音驱动面部模型的过程中，由于语音内容的多样性，且相同的语音在不同的前后语境下具备不同的含义，也就是说，语音内容驱动面部模型并不是简单的线性对应关系，为了使语音内容特可以有效的驱动参考面部模型，在本实施例中，具体实现方式如下：

将所述语音内容特征输入至表情分量预测模型进行处理，得到目标表情分量；根据所述目标表情分量对所述参考面部模型的表情分量进行更新，得到目标面部驱动模型。

其中，表情分量预测模型可以理解为，一个可以基于输入的语音内容特征，预测对应的表情分量的模型；目标表情分量可以理解为，与语音内容特征相对应的表情分量，即不同的语音内容特征对应不同的目标表情分量，并且目标表情分量可以替换参考面部模型中的表情分量，使之得到与语音内容特征对应的表情；目标面部驱动模型可以理解为，与语音内容特征关联的面部模型，不同的语音内容特征对应目标面部驱动模型上不同的面部表情。

基于此，将语音内容特征输入至表情分量预测模型进行处理，其中表情分量预测模型是经过训练的模型，可以实现根据输入的语音内容特征不同，得到不同的目标表情分量，之后根据目标表情分量对参考面部模型原有的表情分量进行更新，得到表情分量与语音内容特征对应的目标面部驱动模型。

沿用上例，将a输入至表情分量预测模型，得到目标表情分量为“左眼挑眉”，之后将目标表情分量替换参考面部模型原有的表情分量，得到目标面部驱动模型。

综上，通过表情分量预测模型，预测语音内容特征对应的目标表情分量，之后根据目标表情分量对参考面部模型更新，实现了基于语音驱动面部模型的效果，使目标面部驱动模型针对某个具体的语音，做出对应的表情。

进一步的，为了使表情分量预测模型可以基于语音内容特征，预测出准确的目标表情分量，需要对其进行训练，在本实施例中，具体实现方式如下：

从样本数据库中获取样本视频，并提取所述样本视频中至少一个样本视频帧的表情分量；提取所述样本视频的语音信息，并对所述语音信息进行内容特征提取，得到样本语音内容特征；将所述样本语音内容特征输入至初始表情分量预测模型进行处理，得到预测表情分量；确定与所述预测表情分量对应的样本视频帧的表情分量为样本表情分量，并基于所述预测表情分量与所述样本表情分量计算损失值；根据所述损失值训练所述初始表情分量预测模型，直至达到训练停止条件得到目标表情分量预测模型。

其中，样本视频可以理解为，用于对初始表情分量预测模型进行训练的视频，需要说明的是，样本视频中包含表情变化的虚拟对象形象，以及对应的语音，并且样本视频可以与参考视频是同一视频；样本数据库可以理解为用于存储样本视频的数据库；语音信息可以理解为，样本视频中的音频内容对应的信息；预测表情分量可以理解为，通过初始表情分量预测模型处理之后得到的表情分量，即初始表情分量预测模型对输入的样本语音内容特征对应的样本视频中，虚拟对象形象的面部表情的预测；样本表情分量可以理解为，样本视频中的虚拟对象形象实际表情对应的表情分量。

基于此，自样本数据库中获取样本视频，之后提取样本视频中至少一个样本视频帧的表情分量，需要说明的是，提取样本视频中至少一个样本视频帧的表情分量所使用的技术手段，与获取参考面部模型的表情分量的过程类似，都可以通过面部重建模型中的3维模型参数确定，面部重建模型可以使用开源Deep3DFaceRecon代码生成的，具体算法实现可以是3DMM、3DDFA、DECA等，实际应用中，面部重建模型的具体实现可以根据实际需求进行选择，本实施例在此不作任何限定。

进一步的，提取样本视频中音频的样本语音内容特征，并将样本语音内容特征输入初始表情分量预测模型处理，得到预测表情分量；之后根据预测表情分量与样本视频帧的表情分量计算损失函数，获得损失值，之后根据损失值对初始表情分量预测模型的参数进行调整，若调整后的模型不满足训练停止条件，则继续选择新的样本对其进行训练，直至模型满足训练停止条件后，即可得到目标表情分量预测模型。

需要说明的是，计算预测表情分量与样本视频帧的表情分量之间的损失函数过程中，需要确定二者之间的对应关系，即需要选择样本视频音频特征中同一句话，或同一个词的对应的预测表情分量与样本视频帧的表情分量进行损失函数的计算。

沿用上例，自样本数据库中选择样本视频E，确定样本视频中的一个样本视频帧的表情分量e1，之后提取视频E中对应位置的音频的样本语音内容特征f1，之后将f1输入采用LSTM技术的初始表情分量预测模型，得到预测表情分量e2，计算e1与e2之间的损失函数，并根据这个损失函数对初始表情分量预测模型的参数进行调整，之后自样本视频中继续提取新的样品视频帧，重复类似的以上步骤，不断对初始表情分量预测模型的参数进行调整，直到损失函数满足预设条件的情况下，完成训练，得到目标表情分量预测模型。

综上，通过对初始表情分量预测模型的训练，得到了目标表情分量预测模型，可以根据输入的语音内容特征得到对应表情分量，实现基于语音驱动面部模型的步骤。

步骤S108：基于所述目标面部驱动模型和所述给定文本创建目标视频。

具体的，在得到目标面部驱动模型之后，还需要结合给定文本为目标视频配上音频，最终得到满足用户需求的目标视频。

其中，由于目标面部驱动模型已经展示出了目标视频中虚拟主播形象的表情变化，之后还需要为其配置对应的音频，而音频可以通过给定文本进行语音转换得到，需要说明的是，此处的语音转换过程在上文已经进行了解释，在此不进行赘述。

进一步的，由于视频是按照时间顺序排序的视频帧组成可播放片段，因此需要确定正确的视频帧播放顺序才能得到用户需求的目标视频，在本实施例中，具体实现方式如下：

将所述给定文本进行语音转换，得到目标语音；驱动所述目标面部驱动模型中的虚拟对象，根据所述目标语音进行表情变化获得目标视频帧图像序列；所述目标视频帧图像序列与所述目标语音融合得到所述目标视频。

其中，目标语音可以理解为，目标视频中的音频；目标视频帧图像序列可以理解为，与目标语音在时间维度对齐的视频帧组成的序列，对应着目标视频中视频帧的展示时间先后顺序。

基于此，对给定文本进行语音转换，将得到目标语音，之后可以根据目标语音确定目标面部驱动模型中虚拟主播对应的表情，并结合目标语音驱动目标面部驱动模型中虚拟对象的表情进行相应的变化，此时再对其进行截取，可以得到目标视频帧图像序列，再将目标视频帧图像序列与所述目标语音结合，即可得到所述目标视频。

需要说明的是，获得目标视频帧图像序列过程中，除了对目标面部驱动模型中的虚拟对象进行截取外，还可以将虚拟对象与参考视频中的视频帧进行融合。即：提取此时目标面部驱动模型中的虚拟对象的表情分量，将其叠加至参考视频中视频帧的面部图像上，实现图像的增强。

此外，还可以通过GAN技术进行三维模型到真实图像的转换，增强其清晰度。也就是说，通过目标语音驱动目标面部驱动模型中的虚拟对象进行表情变化的过程，即为改变其表情分量的过程；而由于参考面部模型中的面部像素点被标记过，所以对应目标面部驱动模型上的面部像素点也是被标记的，此时通过驱动其面部像素点实现表情变换，这种变换方式涉及的可变换点的数量，远远大于基于面部关键点进行表情变换的面部关键点数量，通过驱动面部像素点实现表情变换的方式，其本质是使用参考帧间稠密运动场生成图像的算法，也就是说，利用远大于面部关键点数量的面部像素点进行表情变换处理，可以保证稳定性更强。

沿用上例，将文本A转换为目标语音，根据目标语音确定目标面部驱动模型对应的表情分量，并通过这个表情分量使目标面部驱动模型中的虚拟主播的各个面部像素点进行变换，之后基于GAN技术进行三维模型到真实图像的转换，得到目标视频帧图像序列，根据得到的目标视频帧图像序列与目标语音创建目标视频，得到人物甲朗读广告文本A的视频，并且在朗读过程中人物甲还使用了“左眼挑眉”的表情。

综上，通过语音驱动目标面部驱动模型中的虚拟对象，实现了目标视频的生成，得到一个可以根据朗读给定文本，并配合对应动作的虚拟对象视频。

进一步的，生成目标视频过程中，为了避免音画不同步，在本实施例中，具体实现方式如下：

确定所述目标语音与所述目标视频帧图像之间的对应关系；基于所述对应关系将所述目标语音与所述目标视频帧图像进行对齐，并融合得到目标视频。

其中，确定目标语音与目标视频帧图像之间的对应关系，可以理解为，某一句话，或是某一个词对应的目标视频中的虚拟对象需要展示的表情，由于目标视频帧序列是与目标语音对应的，所以此时需要将二者进行时间上的对齐，从而可以保证得到的目标视频音画同步。

沿用上例，确定目标语音的起始时间与终止时间，确定所述目标视频帧序列的第一个视频帧图像与最后一个视频帧图像，将起始时间与第一个视频帧图像对齐，将终止时间与最后一个视频帧图像也对齐，之后进行融合，得到目标视频。

综上，通过将目标语音与目标视频帧序列中的目标视频帧图像进行对齐，保证了目标视频音画同步。

进一步的，在生成的目标视频中，面对讲课、解说等场景时，可以对目标视频的背景进行替换，在本实施例中，具体实现形式如下：

获取背景视频帧；将所述背景视频帧与所述目标视频帧图像进行融合，得到融合视频帧图像；相应的，所述基于所述对应关系将所述目标语音与所述目标视频帧图像进行对齐，并融合得到目标视频，包括：基于所述对应关系将所述目标语音与所述融合视频帧图像进行对齐，并融合得到目标视频，其中，所述融合视频帧图像与所述目标视频帧图像之间，与所述目标语音之间的对应关系一致。

其中，背景视频帧可以理解为，包含着目标视频需要进行调整背景图案的视频帧。

基于此，获取背景视频帧，之后将目标视频帧图像中的虚拟对象形象进行抠图处理，之后将虚拟对象形象与目标视频帧结合，得到融合视频帧图像，或者，将目标视频帧图像中的虚拟对象形象与原背景进行分层处理，其中，原背景层在最下层，之后将背景视频帧替换原背景层；实际应用中，将背景视频帧与目标视频帧图像进行融合的方式可以根据实际应用场景选择，本实施例不进行限定。后续的基于融合视频帧图像与目标语音创建目标视频的过程，和上述基于目标视频帧图像与目标语音创建目标视频的过程类似，在此不进行赘述。

沿用上例，获取背景视频帧，之后将目标视频帧图像中的用户甲形象进行抠图，将抠图之后的用户甲形象的图像插入背景视频帧的上层，实现用户甲形象与目标视频帧结合。

综上，通过背景视频帧与目标视频帧图像中的虚拟对象形象进行结合，实现了目标视频背景的多样性，有利于提升视频质量。

本说明书一个实施例实现了通过给定文本的语音内容特征，驱动基于参考视频中虚拟对象形象创建的参考面部模型，得到目标面部驱动模型，并通过目标面部驱动模型给定文本创建目标视频，实现了自动化的产出用户指定形象、指定文稿的虚拟对象视频，生成的虚拟对象视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低虚拟对象创建的门槛，为虚拟对象形象视频创作带去高效的流程和新体验。

图2示出了根据本说明书一个实施例提供的第二种视频生成方法的流程图，具体包括以下步骤。

步骤S202：接收供虚拟主播播报的给定文本以及包含有所述虚拟主播形象的参考视频。

步骤S204：根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量。

步骤S206：提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型。

步骤S208：基于所述目标面部驱动模型和所述给定文本创建目标直播视频。

其中，虚拟主播可以理解为，在使用虚拟形象进行直播的场景下，相关的显示设备显示出的直播画面中的虚拟形象；虚拟主播形象可以理解为，虚拟主播在直播场景下，在相关显示设备上呈现的虚拟对象的视觉图像；目标直播视频可以理解为，使用虚拟主播进行直播的视频，需要说明的是，目标直播视频可以是实时产生并供给观众拉流观看的视频，也可以是在直播开启前录制完成的视频，在直播开始后由相关人员推流至网络，供观众拉流观看，目标直播视频是实时画面的视频，还是提前录制的视频由实际使用场景决定，本实施例不进行限定。

在使用虚拟对象形象进行直播的过程中，用户需要虚拟主播形象播报预设的文本内容，用户通过相关程序的相关文本界面或文本窗口，将给定文本输入；对于用户期望目标直播视频中出现的虚拟主播的形象，需要用户挑选参考视频，参考视频中包含用户需要的虚拟主播的面部图像。

之后，针对参考视频中的图像，提取参考视频中的虚拟对象的面部特征并生成该虚拟对象对应的参考面部模型，并且根据参考视频中的虚拟对象在说话过程中呈现的表情，确定参考面部模型对应的表情分量。

再之后，根据对给定文本进行语音转换、语义提取等处理方法，确定给定文本的语言内容特征，之后确定该语音内容特征对应面部参考模型的具体哪种表情分量，之后将这种表情分量拟合至面部参考模型中，使面部参考模型呈现播报给定文本对应的语音时，需要展露的适合的表情。

最后，拟合完成的面部参考模型，是一个表情不断变化的动态模型，结合给定文本转换的语音，将语音与动态模型对齐，就实现了以参考视频中的虚拟对象的形象，对给定文本进行播报的目标直播视频。

本说明书一个实施例实现了通过给定文本的语音内容特征，驱动基于参考视频中虚拟主播形象创建的参考面部模型，得到目标面部驱动模型，并通过目标面部驱动模型给定文本创建目标直播视频，实现了自动化的产出用户指定形象、指定文稿的虚拟主播视频，生成的虚拟主播视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低使用虚拟形象进行直播的门槛，为虚拟主播形象视频创作带去高效的流程和新体验。使用户可以更加高效、简洁且无需过多花销的情况下，使用虚拟形象进行直播，丰富直播内容，也提升了直播观众的观感丰富度。

上述为本实施例的第二种视频生成方法的示意性方案。需要说明的是，该视频生成方法的技术方案与上述的第一种视频生成方法的技术方案属于同一构思，该视频生成方法的技术方案未详细描述的细节内容，均可以参见上述第一种视频生成方法的技术方案的描述。

图3示出了根据本说明书一个实施例提供的第三种视频生成方法的流程图，具体包括以下步骤。

步骤S302：接收供虚拟参会对象发言的给定文本以及包含有所述虚拟参会对象形象的参考视频。

步骤S304：根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量。

步骤S306：提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型。

步骤S308：基于所述目标面部驱动模型和所述给定文本创建目标会议视频。

其中，虚拟参会对象可以理解为，在参与会议的参会人员不希望自身形象被其他参会人员得知的情况下，使用虚拟对象形象参与会议，相关的显示设备中显示出的直播画面中的虚拟对象；虚拟参会对象形象可以理解为，参会人员选择的，向其他参会人员进行展示的虚拟对象的形象；目标会议视频可以理解为，参会人员使用虚拟参会对象参与线上会议时，在相关显示设备中显示的视频。

在会议召开时，参会人员希望自身以某虚拟形象出现在其他参会人员面前时，该参会人员会将自己需要进行发言的给定文本输入客户端，并且选择包含自身希望呈现的虚拟对象形象的参考视频。

之后，针对参考视频中包含的虚拟对象形象的面部特征进行提取，并根据提取出的面部参数创建对应的参考面部模型，之后根据参考视频中该虚拟对象形象在说话过程中呈现的表情与肢体动作等，确定参考面部模型对应的表情分量。

再之后，将给定文本进行语音转换、语义提取等处理方法进行处理，确定给定文本的语音内容特征，然后通过预训练的模型，确定给定文本对应的语音内容特征映射到参考面部模型时，参考面部模型会呈现的表情分量。将该表情分量拟合至参考面部模型中。

最后，拟合完成的面部参考模型，是一个表情不断发生变化的动态模型，之后将给定文本对应的语音与该动态模型对齐，就得到了一个以参考视频中的虚拟对象形象，根据给定文本进行发言的目标会议视频。

本说明书一个实施例实现了通过给定文本的语音内容特征，驱动基于参考视频中虚拟参会对象形象创建的参考面部模型，得到目标面部驱动模型，并通过目标面部驱动模型给定文本创建目标会议视频，实现了自动化的产出用户指定形象、指定文稿的虚拟参会对象的视频，生成的目标会议视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低使用虚拟形象进行线上会议的门槛，为线上会议带去新体验。使用户可以更加高效、简洁且无需过多花销的情况下，使用虚拟形象参与会议，丰富会议内容，也有助于提升参会人员的隐私保护。

上述为本实施例的第三种视频生成方法的示意性方案。需要说明的是，该视频生成方法的技术方案与上述的第一种视频生成方法的技术方案属于同一构思，该视频生成方法的技术方案未详细描述的细节内容，均可以参见上述第一种视频生成方法的技术方案的描述。

图4示出了根据本说明书一个实施例提供的第四种视频生成方法的流程图，具体包括以下步骤。

步骤S402：接收供虚拟教师讲课的给定文本以及包含有所述虚拟教师形象的参考视频。

步骤S404：根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量。

步骤S406：提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型。

步骤S408：基于所述目标面部驱动模型和所述给定文本创建目标课堂视频。

其中，虚拟教师可以理解为，在网课或是解说、科普视频中使用虚拟对象形象进行讲解的情况下，进行该网课或视频观看的相关设备中显示出的虚拟对象；虚拟教师形象可以理解为，网课或视频的制作人员选择的虚拟对象形象，该虚拟对象形象会在目标课堂视频中呈现；目标课堂视频可以理解为，上述的使用虚拟对象形象进行内容演绎的网课或视频。

在相关的网课或科普、解说视频的制作过程中，视频制作者选择一个参考视频，该参考视频中包含的虚拟对象形象将会成为最终的网课或视频中进行相关内容讲解的虚拟形象；并且视频制作者还需要将具体的用于讲解的给定文本输入至客户端。

之后，针对参考视频中包含的虚拟对象形象的面部特征进行提取，并根据提取出的面部特征创建参考面部模型，之后根据参考视频中的虚拟对象形象在说话过程中会呈现的表情确定面部参考模型对应的表情分量，在这里可以通过将参考视频中的音频与虚拟对象形象的表情进行相关预测模型的创建，该预测模型能够根据不同的语音内容预测出说出该语音内容的时间点上，相关虚拟对象的表情分量。

再之后，将给定文本进行语音转换与语义提取，得到语音内容特征，再通过上述的预测模型预测出该语音内容特征对应的表情分量，将得到的表情分量拟合至参考面部模型中。

最后，将拟合完成的面部参考模型与给定文本的语音进行对其，得到了一个按照给定文本的内容进行讲课，或是按照给定文本进行解说、讲解的目标课堂视频。

本说明书一个实施例实现了通过给定文本的语音内容特征，驱动基于参考视频中虚拟教师形象创建的参考面部模型，得到目标面部驱动模型，并通过目标面部驱动模型给定文本创建目标课堂视频，实现了自动化的产出用户指定形象、指定文稿的虚拟形象的视频，生成的目标课堂视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低使用虚拟形象进行视频制作的门槛。使用户可以更加高效、简洁且无需过多花销的情况下，使用虚拟形象进行视频创作，丰富视频内容，提升观看体验。

上述为本实施例的第四种视频生成方法的示意性方案。需要说明的是，该视频生成方法的技术方案与上述的第一种视频生成方法的技术方案属于同一构思，该视频生成方法的技术方案未详细描述的细节内容，均可以参见上述第一种视频生成方法的技术方案的描述。

下述结合附图5和图6，以本说明书提供的视频生成方法在视频课件的应用为例，对所述视频生成方法进行进一步说明。其中，图5示出了本说明书一个实施例提供的一种视频生成方法的处理过程流程图，图5示出了本说明书一个实施例提供的一种视频生成方法的处理过程示意图；该方法具体包括以下步骤：

步骤S502：接收供虚拟主播表演的给定文本以及包含有虚拟主播形象的参考视频。

具体的，确定获取包含老师的参考视频，并接收针对老师讲课内容的给定文本。如图6中所示的用户输入模块，由用户上传关联主播形象的视频和文本。

步骤S504：对参考视频进行面部特征提取，获得参考面部参数。

具体的，如图6中所示的面部处理模块，通过面部检测模块中的面部检测引擎对参考视频中的面部进行检测，获得面部图像，之后通过对面部图像进行特征提取，即可获得参考面部参数，即抓取参考视频中的人物的脸部，以及脸部的相关信息。

步骤S506：基于参考面部参数创建初始面部模型。

具体的，在得到老师对应的参考面部参数后，可以基于参考面部参数生成如图6包含的面部检测模块中所示的初始面部模型，即对应老师面部的初始面部模型，其中，初始面部模型与并没有对自身的各个面部像素点进行上色。

步骤S508：确定初始面部模型上各个面部像素点的坐标编码。

具体的，扫描老师的初始面部模型后，可以基于初始面部模型构建坐标系，并确定初始面部模型包含的各个面部像素点在该坐标系中的坐标编码，即各个面部像素点对应的坐标信息。

步骤S510：为各个坐标编码对应的像素点配置不同的颜色，得到参考面部模型。

具体的，为不同坐标编码的像素点配置不同的颜色，得到的参考面部模型；也就是说，通过对如图6中面部检测模块所示的初始面部模型进行上色，可以得到具有色彩信息的参考面部模型。

步骤S512：根据参考视频获得参考面部模型的表情分量。

具体的，根据参考视频中的老师形象的脸部表情，确定参考面部模型的表情分量，该表情分量是参考面部模型的初始表情分量。

步骤S514：对给定文本进行语音转换，得到给定语音。

具体的，对老师的教案进行语音转换，将得到给定语音。也就是说，在用户输入模块输入给定文本后，将通过如图6中的音频处理模块给定文本进行处理，通过语音合成引擎将给定文本转换为合成语音，即给定语音，以方便后续能够以此为基础进行表情的驱动处理。即：将老师教案的文本进行了音频转换，得到了对应的合成语音。

步骤S516：将给定语音进行内容特征提取，得到语音内容特征。

具体的，提取给定语音对应的语音内容特征，以用于后续结合参考面部模型进行表情驱动处理。如图6所示，在得到给定文本对应的给定语音后，可以利用音频处理模块对给定语音进行内容特征提取，以根据提取结果获得语音内容特征，即：将老师教案对应的合成语音进行了语音特征提取，得到了对应的语音内容特征。

步骤S518：将语音内容特征输入至表情分量预测模型进行处理，得到目标表情分量。

步骤S520：根据目标表情分量对参考面部模型的表情分量进行更新，得到目标面部驱动模型。

具体的，如图6所示，在通过面部处理模块和音频处理模块得到参考面部模型和语音内容特征后，此时可以将二者输入到语音驱动面部生成模块中的驱动模型，即表情分量预测模型进行处理，以根据表情分量预测模型得到关联语音内容特征的目标表情分量。在此基础上，再通过目标表情分量对参考面部模型的表情分量进行更新，即可得到目标面部驱动模型。也就是说，通过对教案对应的语音内容特征和教师对应的面部模型进行融合，可以得到与教案对应的语音内容特征相关联的目标面部驱动模型。

步骤S522：驱动目标面部驱动模型中的虚拟主播，根据给定语音进行表情变化获得目标视频帧图像序列。

具体的，为保证基于语音内容可以驱动虚拟主播进行表情变化，此时可以结合目标语音驱动目标面部驱动模型中的虚拟主播进行表情变化，通过在变化过程中进行图像截取，即可得到由多个视频帧组成的目标视频帧图像序列。如图6所示，通过语音驱动面部生成模块根据老师的教案语音，驱动老师的目标面部驱动模型进行表情变换，并截取每一帧的面部表情变化，在表情变化完成后，通过面部融合即可完成对全部图像帧的整合，用于得到目标视频帧图像序列。

步骤S524，获取背景视频帧，并将背景视频帧与目标视频帧图像序列中包含的目标视频帧图像进行融合，得到融合视频帧图像序列。

具体的，考虑到此时生成的目标视频帧图像序列仅包含老师讲课的内容，其展示效果较为单一。为了能够提高视频播放效果，满足用户的观看体验，可以采用背景融合的方式对目标视频帧图像序列进行更新。

如图6所示，在得到目标视频帧图像序列后，可以将其输入至视频融合模块，并在预设的背景视频帧中选择满足当前使用场景的背景视频帧，之后采用抠图处理的方式对二者进行融合。也就是说，通过对目标视频帧图像序列中包含的每个目标视频帧图像进行抠图处理，之后再将选择的背景视频帧融合到抠图处理后的目标视频帧图像，即可得到融合视频帧图像序列。

步骤S526：确定目标语音与融合视频帧图像序列之间的对应关系。

步骤S528：基于对应关系将目标语音与融合视频帧图像序列进行对齐并融合，得到目标视频。

具体的，如图6所示，在得到融合视频帧图像序列后，为保证语音播放内容与视频中老师讲话的面部表情相匹配，可以在生成目标视频前，确定根据给定文本生成的目标语音，与融合视频帧图像序列之间的对应关系，之后再基于该对应关系对目标语音与所述融合视频帧图像序列进行对齐处理，并在对齐处理完成后，对音频和视频进行融合，即可得到目标视频。目标视频的播放效果即为：教师按照给定文本内容进行讲课，且面部表情会根据讲课内容发生变化，同时讲课背景为选定的背景，以向听课的用户播放更加真实的讲课视频。

与上述方法实施例相对应，本说明书还提供了视频生成装置实施例，图7示出了本说明书一个实施例提供的第一种视频生成装置的结构示意图。如图7所示，该装置包括：

接收模块702，被配置为接收供虚拟对象参考的给定文本以及包含有所述虚拟对象形象的参考视频；

获取模块704，被配置为根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量；

提取模块706，被配置为提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型；

创建模块708，被配置为基于所述目标面部驱动模型和所述给定文本创建目标视频。

在一种可执行的实施例中，所述获取模块704还被配置为：

在一种可执行的实施例中，所述提取模块706还被配置为：

在一种可执行的实施例中，所述创建模块708还被配置为：

在一种可执行的实施例中，所述视频生成装置还包括：

背景模块，被配置为获取背景视频帧；将所述背景视频帧与所述目标视频帧图像进行融合，得到融合视频帧图像；

相应的，所述基于所述对应关系将所述目标语音与所述目标视频帧图像进行对齐，并融合得到目标视频，包括：基于所述对应关系将所述目标语音与所述融合视频帧图像进行对齐，并融合得到目标视频，其中，所述融合视频帧图像与所述目标视频帧图像之间，与所述目标语音之间的对应关系一致。

在一种可执行的实施例中，所述获取模块704还被配置为：

确定所述初始面部模型上各个面部像素点的坐标编码；

为各个坐标编码对应的像素点配置不同的颜色，得到参考面部模型。

本说明书一个实施例提供的视频生成装置，实现了自动化的产出用户指定形象、指定文稿的虚拟对象视频，生成的虚拟对象视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低虚拟对象创建的门槛，为虚拟对象形象视频创作带去高效的流程和新体验。

上述为本实施例的第一种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的第一种视频生成方法的技术方案属于同一构思，该视频生成装置的技术方案未详细描述的细节内容，均可以参见上述第一种视频生成方法的技术方案的描述。

与上述第二种视频生成方法实施例相对应，本说明书还提供了第二种视频生成装置实施例，该装置包括：

直播接收模块，被配置为接收供虚拟主播播报的给定文本以及包含有所述虚拟主播形象的参考视频；

直播获取模块，被配置为根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量；

直播提取模块，被配置为提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型；

直播创建模块，被配置为基于所述目标面部驱动模型和所述给定文本创建目标直播视频。

本说明书一个实施例提供的视频生成装置，实现了自动化的产出用户指定形象、指定文稿的虚拟主播视频，生成的虚拟主播视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低使用虚拟形象进行直播的门槛，为虚拟主播形象视频创作带去高效的流程和新体验。使用户可以更加高效、简洁且无需过多花销的情况下，使用虚拟形象进行直播，丰富直播内容，也提升了直播观众的观感丰富度。

上述为本实施例的第二种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的第二种视频生成方法的技术方案属于同一构思，该视频生成装置的技术方案未详细描述的细节内容，均可以参见上述第二种视频生成方法的技术方案的描述。

与上述第三种视频生成方法实施例相对应，本说明书还提供了第三种视频生成装置实施例，该装置包括：

会议接收模块，被配置为接收供虚拟参会对象发言的给定文本以及包含有所述虚拟参会对象形象的参考视频；

会议获取模块，被配置为根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量；

会议提取模块，被配置为提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型；

会议创建模块，被配置为基于所述目标面部驱动模型和所述给定文本创建目标会议视频。

本说明书一个实施例提供的视频生成装置，实现了自动化的产出用户指定形象、指定文稿的虚拟参会对象的视频，生成的目标会议视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低使用虚拟形象进行线上会议的门槛，为线上会议带去新体验。使用户可以更加高效、简洁且无需过多花销的情况下，使用虚拟形象参与会议，丰富会议内容，也有助于提升参会人员的隐私保护。

上述为本实施例的第三种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的第三种视频生成方法的技术方案属于同一构思，该视频生成装置的技术方案未详细描述的细节内容，均可以参见上述第三种视频生成方法的技术方案的描述。

与上述第四种视频生成方法实施例相对应，本说明书还提供了第四种视频生成装置实施例，该装置包括：

课堂接收模块，被配置为接收供虚拟教师讲课的给定文本以及包含有所述虚拟教师形象的参考视频；

课堂获取模块，被配置为根据所述参考视频获得参考面部模型以及所述参考面部模型的表情分量；

课堂提取模块，被配置为提取所述给定文本的语音内容特征，并将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型；

课堂创建模块，被配置为基于所述目标面部驱动模型和所述给定文本创建目标课堂视频。

本说明书一个实施例提供的视频生成装置，实现了自动化的产出用户指定形象、指定文稿的虚拟形象的视频，生成的目标课堂视频真实自然，同时因为无需人工进行模型创建，所以极大降低了传统媒体行业视频制作的周期和成本，降低使用虚拟形象进行视频制作的门槛。使用户可以更加高效、简洁且无需过多花销的情况下，使用虚拟形象进行视频创作，丰富视频内容，提升观看体验。

上述为本实施例的第四种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的第四种视频生成方法的技术方案属于同一构思，该视频生成装置的技术方案未详细描述的细节内容，均可以参见上述第四种视频生成方法的技术方案的描述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述视频生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频生成方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的视频生成方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频生成方法，包括：

基于所述目标面部驱动模型和所述给定文本创建目标视频。

2.根据权利要求1所述的方法，所述根据所述参考视频获得参考面部模型，包括：

对所述参考视频进行面部特征提取，获得参考面部参数；

基于所述参考面部参数创建初始面部模型；

对所述初始面部模型的面部像素点进行标记，得到参考面部模型。

3.根据权利要求1所述的方法，所述提取所述给定文本的语音内容特征，包括：

对所述给定文本进行语音转换，得到给定语音；

将所述给定语音进行内容特征提取，得到语音内容特征。

4.根据权利要求1所述的方法，所述将所述语音内容特征与所述参考面部模型的表情分量进行拟合得到目标面部驱动模型，包括：

将所述语音内容特征输入至表情分量预测模型进行处理，得到目标表情分量；

根据所述目标表情分量对所述参考面部模型的表情分量进行更新，得到目标面部驱动模型。

5.根据权利要求4所述的方法，所述将所述语音内容特征输入至表情分量预测模型进行处理之前，还包括：

从样本数据库中获取样本视频，并提取所述样本视频中至少一个样本视频帧的表情分量；

提取所述样本视频的语音信息，并对所述语音信息进行内容特征提取，得到样本语音内容特征；

将所述样本语音内容特征输入至初始表情分量预测模型进行处理，得到预测表情分量；

确定与所述预测表情分量对应的样本视频帧的表情分量为样本表情分量，并基于所述预测表情分量与所述样本表情分量计算损失值；

根据所述损失值训练所述初始表情分量预测模型，直至达到训练停止条件得到目标表情分量预测模型。

6.根据权利要求1所述的方法，所述基于所述目标面部驱动模型和所述给定文本创建目标视频，包括：

将所述给定文本进行语音转换，得到目标语音；

驱动所述目标面部驱动模型中的虚拟对象，根据所述目标语音进行表情变化获得目标视频帧图像序列；

所述目标视频帧图像序列与所述目标语音融合得到所述目标视频。

7.根据权利要求6所述的方法，所述目标视频帧图像序列与所述目标语音融合得到所述目标视频，包括：

确定所述目标语音与所述目标视频帧图像之间的对应关系；

基于所述对应关系将所述目标语音与所述目标视频帧图像进行对齐，并融合得到目标视频。

8.根据权利要求7所述的方法，所述基于所述对应关系将所述目标语音与所述目标视频帧图像进行对齐，并融合得到目标视频之前，还包括：

获取背景视频帧；

将所述背景视频帧与所述目标视频帧图像进行融合，得到融合视频帧图像；

相应的，所述基于所述对应关系将所述目标语音与所述目标视频帧图像进行对齐，并融合得到目标视频，包括：

基于所述对应关系将所述目标语音与所述融合视频帧图像进行对齐，并融合得到目标视频，其中，所述融合视频帧图像与所述目标视频帧图像之间，与所述目标语音之间的对应关系一致。

9.根据权利要求2所述的方法，所述对所述初始面部模型的面部像素点进行标记，得到参考面部模型，包括：

确定所述初始面部模型上各个面部像素点的坐标编码；

10.一种视频生成装置，包括：

11.一种视频生成方法，包括：

12.一种视频生成方法，包括：

13.一种视频生成方法，包括：