CN113395569A

CN113395569A - 视频生成方法及装置

Info

Publication number: CN113395569A
Application number: CN202110667963.7A
Authority: CN
Inventors: 李超超; 李东朔; 王晔; 徐灿
Original assignee: Beijing Youmu Technology Co ltd
Current assignee: Beijing Youmu Technology Co ltd
Priority date: 2021-05-29
Filing date: 2021-06-16
Publication date: 2021-09-14
Anticipated expiration: 2041-06-16
Also published as: CN113395569B

Abstract

本说明书提供视频生成方法及装置，其中所述视频生成方法包括：获取人脸图像和多媒体模板；对所述人脸图像和所述多媒体模板分别进行预处理，获得所述人脸图像对应的目标人脸图像以及所述多媒体模板对应的目标多媒体模板；确定所述目标人脸图像对应的人脸特征，以及所述目标多媒体模板对应的多媒体特征；基于所述多媒体特征和所述人脸特征生成图像帧序列，并根据所述图像帧序列创建所述人脸图像对应的目标视频。

Description

视频生成方法及装置

本申请要求于2021年05月29日提交的、申请号为202110595567.8、发明创造名称为视频生成方法及装置的中国专利申请的优先权。

技术领域

本说明书涉及计算机技术领域，特别涉及一种视频生成方法。本说明书同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的发展，基于图像生成视频的技术在各领域被广泛的应用，如短视频的编辑场景、电影拍摄场景或游戏CG创建场景等，都会涉及到视频生成技术。现有技术中，视频生成技术往往都是赋予一张静态图像一定的动作特征，并将多张修改后的图像进行合成以得到一段视频。然而由于主体和动作特征的匹配度较低，很容易出现动作不自然、不连贯等问题，尤其是在结合音频的情况下，更难达到音频和视频匹配的效果，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种视频生成方法。本说明书同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种视频生成方法，包括：

获取人脸图像和多媒体模板；

对所述人脸图像和所述多媒体模板分别进行预处理，获得所述人脸图像对应的目标人脸图像以及所述多媒体模板对应的目标多媒体模板；

确定所述目标人脸图像对应的人脸特征，以及所述目标多媒体模板对应的多媒体特征；

基于所述多媒体特征和所述人脸特征生成图像帧序列，并根据所述图像帧序列创建所述人脸图像对应的目标视频。

可选地，对所述人脸图像进行预处理，获得所述人脸图像对应的目标人脸图像，包括：

检测所述人脸图像中的人脸区域，并基于所述人脸区域对所述人脸图像进行裁剪获得中间人脸图像；

将所述中间人脸图像输入至图像处理模型进行处理，获得所述人脸图像对应的所述目标人脸图像。

可选地，所述多媒体模板中包含视频模板和音频模板；

相应的，对所述多媒体模板进行预处理，获得所述多媒体模板对应的目标多媒体模板，包括：

对所述视频模板和所述音频模板分别进行预处理，获得所述视频模板对应的目标视频模板以及所述音频模板对应的目标音频模板；

基于所述目标视频模板和所述目标音频模板组成所述目标多媒体模板。

可选地，确定所述目标人脸图像对应的人脸特征，包括：

将所述目标人脸图像输入至图像编码器进行处理，获得所述图像编码器输出的所述人脸特征。

可选地，确定所述目标多媒体模板对应的多媒体特征，包括：

将所述目标视频模板输入至视频编码器进行处理，获得所述视频编码器输出的目标视频特征；以及

将所述目标音频模板输入至音频编码器进行处理，获得所述音频编码器输出的目标音频特征；

将所述目标视频特征和所述目标音频特征进行特征融合，获得所述目标多媒体模板对应的所述多媒体特征。

可选地，基于所述多媒体特征和所述人脸特征生成图像帧序列，包括：

将所述多媒体特征和所述人脸特征输入至图像解码器进行处理，获得所述图像解码器输出的多个图像帧；

基于所述多个图像帧生成所述图像帧序列。

可选地，根据所述图像帧序列创建所述人脸图像对应的目标视频，包括：

将所述图像帧序列中包含的各个图像帧按照所述目标视频模板进行拼接；

根据拼接结果获得所述人脸图像对应的所述目标视频。

可选地，所述对所述视频模板进行预处理，获得所述视频模板对应的目标视频模板，包括：

对所述视频模板进行人脸检测，获得所述视频模板中包含人脸的视频区间；

基于所述视频区间对所述视频模板进行裁剪处理，获得所述目标视频模板；

相应的，对所述音频模块进行预处理，获得所述音频模板对应的目标音频模板，包括：

对所述音频模板进行降噪处理，获得中间音频模板；

识别所述中间音频模板中的音频区间，并基于所述音频区间对所述中间音频模板进行裁剪处理，获得所述目标音频模板。

可选地，所述将所述图像帧序列中包含的各个图像帧按照所述目标视频模板进行拼接，包括：

对所述目标视频模板进行分帧处理，获得视频帧集合；

确定所述图像帧序列中包含的各个图像帧与所述视频帧集合中包含的各个视频帧之间的对应关系；

基于所述对应关系和所述视频帧集合中包含的各个视频帧之间的排列顺序，对所述图像帧序列中包含的各个图像帧进行排序；

按照排序结果对所述图像帧序列中包含的各个图像帧进行拼接。

可选地，所述视频模板通过如下方式确定：

判断预设的视频模板库中是否存在与所述音频模板关联的初始视频模板；

若是，计算所述初始视频模板与所述音频模板之间的关联度，选择关联度最高的初始视频模板作为所述视频模板；

若否，基于预设的视频筛选条件在所述视频模板库中筛选所述视频模板。

可选地，所述根据所述图像帧序列创建所述人脸图像对应的目标视频，包括：

识别所述图像帧序列包含的各个图像帧中的人脸区域；

基于各个图像帧中的人脸区域对各个图像帧进行背景剔除处理，获得目标图像帧组成的目标图像帧序列；

基于所述目标图像帧序列创建所述人脸图像对应的所述目标视频。

根据本说明书实施例的第二方面，提供了一种视频生成装置，包括：

获取模块，被配置为获取人脸图像和多媒体模板；

处理模块，被配置为对所述人脸图像和所述多媒体模板分别进行预处理，获得所述人脸图像对应的目标人脸图像以及所述多媒体模板对应的目标多媒体模板；

确定模块，被配置为确定所述目标人脸图像对应的人脸特征，以及所述目标多媒体模板对应的多媒体特征；

创建模块，被配置为基于所述多媒体特征和所述人脸特征生成图像帧序列，并根据所述图像帧序列创建所述人脸图像对应的目标视频。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令时，实现所述视频生成方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述视频生成方法的步骤。

本说明书提供的视频生成方法，在获取到人脸图像和多媒体模板的情况下，可以分别对所述人脸图像和所述多媒体模板进行预处理，以获得目标人脸图像和目标多媒体模板，减少其他因素对生成视频的质量产生影响，同时还能够提高人脸图像和多媒体模板的契合度，以方便后续生成流畅度更高的目标视频；进一步的，得到目标人脸图像和目标多媒体模板后，可以采用目标人脸图像对应的人脸特征和目标多媒体模板对应的多媒体特征融合的方式，获得所述图像帧序列，最后基于所述图像帧序列即可生成所述人脸图像对应的目标视频，所述目标视频是以所述人脸图像为主体，以所述多媒体模板中的多媒体资源为驱动动作，达到人脸图像和多媒体模板融合的目的，实现生成的目标视频中主体动作更加连贯和流畅，与多媒体模板契合度较高，有效的提高了生成的目标视频的质量。

附图说明

图1是本说明书一实施例提供的一种视频生成方法的流程图；

图2是本说明书一实施例提供的第一种人脸图像对应的示意图；

图3是本说明书一实施例提供的第二种人脸图像对应的示意图；

图4是本说明书一实施例提供的第三种人脸图像对应的示意图；

图5是本说明书一实施例提供的图像帧序列对应的示意图；

图5-1是本说明书一实施例提供的一种应用于阅读课文场景中的视频生成方法的处理流程图；

图6是本说明书一实施例提供的一种视频生成装置的结构示意图；

图7是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本说明书中，提供了一种视频生成方法，本说明书同时涉及一种视频生成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例提供的一种视频生成方法的流程图，具体包括以下步骤：

步骤S102，获取人脸图像和多媒体模板。

具体的，所述人脸图像具体是指包含用户人脸的图像；所述多媒体模板具体是指基于人脸图像创建目标视频所使用的模板，通过所述多媒体模板可以为所述人脸图像提供音频资源和视频资源，使得后续生成的目标视频可以具有视频中的动作，且与音频匹配；如音频为古诗的朗读，而视频为人物主体讲话，通过将人脸图像与音频和视频整合，可以生成以人脸图像中的人物为主体，口型按照视频中人物的口型朗读古诗的视频，以达到视频生成的目的。

实际应用中，所述人脸图像可以由用户提供或者在预设的人脸图像库中选择；相应的，所述多媒体模板也可以由用户提供或者在预设的多媒体模板库中选择，所述多媒体模板库中可以包括音频模板库和/或视频模板库。

步骤S104，对所述人脸图像和所述多媒体模板分别进行预处理，获得所述人脸图像对应的目标人脸图像以及所述多媒体模板对应的目标多媒体模板。

具体的，在上述获取到所述人脸图像和所述多媒体模板的基础上，进一步的，考虑到后续生成目标视频的质量问题，可以在数据准备阶段，对所述人脸图像和所述多媒体图像分别进行预处理，以获得更加标准的目标人脸图像和目标多媒体资源。

进一步的，在对所述人脸图像进行预处理的过程中，为了能够保证后续生成的目标视频可以清楚看到人物主体的动作，以及避免生成的视频中背景混乱，可以对所述人脸图像进行裁剪和背景抠图，本实施例中，具体实现方式如下所述：

具体的，所述人脸区域具体是指基于所述人脸图像中的人脸所画出的区域，相应的，所述中间人脸图像具体是指对所述人脸图像进行裁剪后得到的图像，且所述中间人脸图像是按照所述人脸区域的范围裁剪得到的；相应的，所述图像处理模型具体是指对所述人脸图像进行肖像抠图处理的模型，以实现从所述中间人脸图像中抠出来不包含背景的目标人脸图像。实际应用中，所述图像处理模型可以采用MODNet模型；人脸区域的确定可以采用人脸检测网络实现，本实施例在此不作任何限定。

基于此，在得到所述人脸图像后，首先可以基于人脸检测网络确定所述人脸图像中的矩形区域，之后将矩形区域按照设定的调整范围进行上下左右扩展，即将矩形区域向上下两边分别扩展该矩形区域对应的设定高度，以及向左右两边分别扩展该矩形区域对应的设定宽度，以根据调整结果获得所述人脸区域；其次按照所述人脸区域对所述人脸图像进行裁剪即可得到所述中间人脸图像；最后将所述中间人脸图像输入至MODNet模型进行肖像抠图处理，即可得到所述目标人脸图像，且所述目标人脸图像可以不包含背景，或仅包含部分背景，再或者包含全部背景。

综上，通过对人脸图像进行预处理，不仅可以避免背景混乱的问题，还能够提高目标人脸图像的清晰度，从而进一步保证了目标视频的质量，有效的提高了用户观看目标视频的体验。

更进一步的，在对所述人脸图像进行预处理的同时，还可以对所述多媒体模板进行预处理，以使得多媒体模板更加贴合所述目标人脸图像，提高后续生成目标视频的效率，本实施例中，具体实现方式如下所述：

所述多媒体模板中包含视频模板和音频模板；基于此，对所述视频模板和所述音频模板分别进行预处理，获得所述视频模板对应的目标视频模板以及所述音频模板对应的目标音频模板；基于所述目标视频模板和所述目标音频模板组成所述目标多媒体模板。

具体的，在所述多媒体模板中包含视频模板和音频模板的情况下，需要同时对所述视频模板和所述音频模板分别进行预处理，以获得所述视频模板对应的目标视频模板，以及所述音频模板对应的目标音频模板。

实际应用中，由于所述视频模板和所述音频模板属于不同的多媒体资源，因此进行目标多媒体模板创建时，则需要采用不同的方式对不同的多媒体资源进行不同的处理，本实施例中，具体实现方式如下所述：

对所述音频模板进行降噪处理，获得中间音频模板；

具体实施时，对所述视频模板进行预处理具体是指检测视频模板中的人脸图像，对视频进行裁剪等操作，以获得一段含有单人脸的连续视频，即目标视频模板；相应的，对所述音频模板进行预处理具体是指降噪、音频裁剪等操作，以获得一段含有单声道的连续音频，即目标音频模板；需要说明的是，所述音频模板和所述视频模板可以是具有关联关系的模板，也可以是不具有任何关系的模板，本实施例在此不作任何限定。

基于此，在确定所述目标视频模板时，由于后续生成的目标视频中人脸需要按照视频模板中的人脸的表情和口型进行运动，因此需要先对所述视频模板进行人脸检测，以获得视频模板中包含单人脸的视频区间，此时可以避免视频中包含多人脸或未包含人脸的视频区间产生影响；进一步的，当确定包含人脸的视频区间后，即可基于所述视频区间对所述视频模板进行裁剪，即调整视频区间的播放尺寸和播放长度，以根据裁剪结果获得所述目标视频模板。

同时，在确定所述目标音频模板时，由于后续生成的目标视频中同步播放的音频是由音频模板决定的，为了能够播放效果更好的音频内容，此时可以对所述音频模板进行降噪处理，以获得更加清晰的中间音频模板；之后再识别所述中间音频模板中的音频区间，所述音频区间具体是指声音开始播放到声音结束播放对应的区间；最后基于所述音频区间对所述中间音频区间进行裁剪处理，即剔除所述中间音频区间中的静默音频区间，以根据裁剪结果获得所述目标音频区间；此时即可基于所述目标视频模板和所述目标音频模板创建所述目标多媒体模板，以实现后续生成展示效果更好的所述目标视频。

举例说明，接收制作视频的用户上传的如图2所示的人脸图像，根据用户的选择请求确定用户需要制作的视频内容为：通过图2所示的人脸图像中的人物朗读古诗《静夜思》。基于此，选择一段长度为T1的人物讲话视频作为视频模板；同时选择一段长度为T2的朗读古诗《静夜思》的音频作为音频模板，以用于后续创建：通过图2所示的人脸图像中的人物朗读古诗《静夜思》的目标视频。

进一步的，在得到如图2所示的人脸图像后，此时可以通过人脸检测网络检测到人脸的矩形区域，该矩形区域如图3所示的矩形框1；之后将矩形区域向上下左右四边分别扩展该矩形区域高度的50％，此时获得的矩形区域如图3所示的矩形框2。其次按照矩形框2对人脸图像进行裁剪获得如图4中(a)所示的中间人脸图像；最后将中间人脸图像输入至MODNet模型进行肖像抠图处理，即可获得人脸图像对应的目标人脸图像，目标人脸图像如图4中(b)所示，该目标人脸图像剔除了人脸图像中的背景。

更进一步的，为了能够使得音频、视频和人脸图像三者更加贴合，此时还可以对音频模板和视频模板进行预处理。即在确定视频模板后，可以对视频模板进行人脸检测、图像剪切和视频裁剪，根据处理结果获得播放长度为T3，且包含一段单人脸讲话的目标视频模板；同时确定音频模板后，可以对音频模板进行降噪、音频裁剪，根据处理结果获得播放长度为T4，且包含一段单声道朗读古诗《静夜思》的目标音频模板，以用于后续创建目标视频。

综上，通过在数据准备阶段，对人脸图像、视频模板和音频模板都进行预处理，不仅可以提高三者的关联度，还能够降低冗余内容产生的影响，从而进一步保证了后续生成目标视频的质量。

此外，在确定所述视频模板时，考虑到后期合成的目标视频的真实度，可以根据不同的场景选择不同的视频模板进行后续的处理操作，本实施例中，视频模板的选择采用如下方式：

具体的，所述视频模板库具体是指存储大量待使用视频的数据库，该数据库中的视频类型包括但不限于新闻视频、讲座视频、脱口秀视频等；相应的，所述初始视频模板具体是指与所述音频模板具有关联关系的视频模板，该关联关系具体体现在音频模板中发声人与视频模板中的人性别相同，年龄相近或两者可以是同一人等，即体现在音频模板中的发声人与视频模板中的人更加贴近，这样可以保证后续生成的目标视频更加流畅和真实。

进一步的，所述关联度具体表征初始视频模板和音频模板在性别维度、年龄维度或体貌特征维度等相关联的程度，所述关联度越高说明初始视频模板和音频模板的关联程度越高，反之所述关联度越低说明初始视频模板和音频模板的关联程度越低；相应的，所述视频筛选条件具体是指筛选能够作为所述视频模板的条件，即从表情、头部姿态和口型出发选择活动幅度较小的人脸所对应的视频作为所述视频模板。

基于此，在确定所述音频模板后，为了能够保证后续生成的目标视频中人脸所活动的轨迹与音频模板更加贴合，此时可以检测预设的视频模板中是否存在与所述音频模板关联的初始视频模板；若是，说明视频模板库中存在与所述音频模板关联程度较高(视频中人物口型、表情和头部姿态与音频模板更加贴合)的初始视频模板，则此时可以计算各个初始视频模板与所述音频模板的关联度，之后选择关联度最高的初始视频模板作为所述视频模板即可。若否，说明所述视频模板库中不存在初始视频模板，而为了能够保证后续完成目标视频的生成，则此时可以基于预设的视频筛选条件在所述视频模板库中进行视频模板的筛选，以获得能够作为合成目标视频的所述视频模板。

沿用上例，在确定一段长度为T2的朗读古诗《静夜思》的音频作为音频模板后，可以判断预设的视频模板库中是否存在与音频模板关联的初始视频模板；若是，确定初始视频模板分别为人物甲(性别男)朗读古诗《静夜思》的视频，人物乙(性别女)朗读古诗《静夜思》的视频，人物丙(性别男)朗读古诗《黄鹤楼》的视频，之后计算上述三个视频分别与音频模板的关联度，根据计算结果确定关联度最高的为人物甲朗读古诗《静夜思》的视频，则将该视频作为视频模板用于后续合成目标视频即可。

若否，确定视频模板库中不存在与音频模板关联的初始视频模板，则此时可以选择视频模板库中包含人物讲话的视频，之后选择头部姿态活动幅度小，口型活动幅度小，与音频模板中人物性别相同的视频作为视频模板，用于后续合正目标视频即可。

综上，通过针对不同的场景选择不同的视频作为所述视频模板，有效的保证了后续生成目标视频的真实性和流畅度，进而提高用户观看目标视频的观看体验。

步骤S106，确定所述目标人脸图像对应的人脸特征，以及所述目标多媒体模板对应的多媒体特征。

具体的，在上述完成对所述人脸图像和所述多媒体模板的预处理之后，会获得所述目标人脸图像和所述目标多媒体模板；进一步的，为了能够保证生成的目标视频中主体动作更加自然和连贯，可以从特征维度出发进行特征的融合；而在此之前，则需要进行图像到特征的转换以及多媒体到特征的转换。

基于此，在进行人脸特征的提取时，可以采用图像编码器完成，本实施例中，具体实现方式如下所述：

同时，在进行多媒体模板的特征提取时，考虑到会涉及到音频和视频两种不同的多媒体资源，因此可以针对不同的多媒体资源采用不同的方式进行特征的确定，本实施例中，具体实现方式如下所述：

将所述目标视频模板输入至视频编码器进行处理，获得所述视频编码器输出的目标视频特征；以及将所述目标音频模板输入至音频编码器进行处理，获得所述音频编码器输出的目标音频特征；将所述目标视频特征和所述目标音频特征进行特征融合，获得所述目标多媒体模板对应的所述多媒体特征。

具体的，所述图像编码器是指能够提取所述目标人脸图像特征的编码器，相应的，所述人脸特征即为表征人脸图像中人脸特征的向量表达；相应的，所述视频编码器具体是指能够提取目标视频模板中视频特征的编码器，所述音频编码器具体是指能够提取目标音频模板中音频特征的编码器。

基于此，在得到所述目标人脸图像后，可以将所述目标人脸图像输入至图像编辑器获得所述人脸图像对应的人脸特征，同时可以将所述目标视频模板输入至视频编码器获得目标视频特征，以及将所述目标音频模板输入至音频编码器获得目标音频特征；由于后续需要将视频、音频和人脸图像融合为目标视频，因此可以先将所述目标视频特征和所述目标音频特征进行融合，以获得所述多媒体特征。

实际应用中，在融合所述目标音频特征和所述目标视频特征的过程中，实则是逐帧完成融合处理的操作；也就是说，将音频帧和视频帧对齐，以达到视频中人物口型与音频对应的目的，从而获得融合后的所述多媒体特征。具体实施时，融合处理操作可以通过潜特征空间完成，即将所述目标音频特征和所述目标视频特征一同输入到潜特征空间即可得到所述多媒体特征。此外，所述视频编码器可以采用视频运动姿态编码器，音频编码器可以采用音频运动姿态编码器，本实施例在此不作任何限定。

沿用上例，当得到如图4中(b)所示的目标人脸图像，以及播放长度为T3的目标视频模板和播放长度为T4的目标音频模板后，为了能够达到三者的充分融合；可以将目标视频模板输入至视频运动姿态编码器进行特征提取，获得目标视频特征VF；同时将目标音频模板输入至音频运动姿态编码器进行特征提取，获得目标音频特征AF；之后再通过潜特征空间对目标视频特征VF和目标音频特征AF进行特征融合，以获得目标音频模板和目标视频模板组成的驱动特征；同时将目标人脸图像输入到图像编码器进行处理获得人脸主体特征，以方便后续完成目标视频的创建。

综上，通过采用编码器完成特征提取，有效的保证了特征提取的准确性；同时将目标音频特征和目标视频特征融合为多媒体特征，可以保证音频和视频的关联度，使得视频中的口型和音频更加匹配，以达到提高视频质量的目的。

步骤S108，基于所述多媒体特征和所述人脸特征生成图像帧序列，并根据所述图像帧序列创建所述人脸图像对应的目标视频。

具体的，在上述确定所述人脸特征和所述多媒体特征后，进一步的，此时即可将人脸图像与多媒体模板进行融合，以生成人脸图像对应的目标视频；融合过程具体是指基于多媒体特征和人脸特征生成图像帧序列，所述图像帧序列具体是指多张包含人脸图像中的人物口型随着多媒体模板中的音频模板发生变化的图像帧所组成的序列，通过对所述图像帧序列中包含的多个图像帧进行拼接，即可得到所述目标视频，所述目标视频的内容即为人脸图像中的人物以视频模板中的口型讲话，讲话内容即为音频模板对应的内容。

进一步的，基于所述多媒体特征和所述人脸特征生成图像帧序列的过程中，为了能够保证生成的目标视频更加清晰且连贯，可以采用逐帧生成图像帧的方式组成图像帧序列，以方便后续生成所述目标视频，本实施例中，具体实现方式如下所述：

基于所述多个图像帧生成所述图像帧序列。

具体的，当得到所述多媒体特征和所述人脸特征后，可以将所述多媒体特征和所述人脸特征输入至图像解码器进行处理，以获得所述图像解码器输出的多个图像帧；按照所述图像帧的输出顺序即可组成所述图像帧序列，以方便后续进行目标视频的生成处理。需要说明的是，所述图像帧序列中包含的每个图像帧，其主体来自于人脸图像，而主体的表情动作来来自于视频模板和音频模板。

进一步的，在得到所述图像帧序列后，如果将图像帧序列中的各个图像帧进行随意拼接，可能会造成目标视频不连贯的问题，因此为了能够保证目标视频中主体动作更加连贯，可以按照目标视频模板完成图像帧的拼接，本实施例中，具体实现方式如下所述：

根据拼接结果获得所述人脸图像对应的所述目标视频。

由于图像帧中的主体的表情动作都是来自于目标视频模板，而目标视频模板中的主体本身就具有很强的连贯性，因此在进行图像帧拼接时，可以按照所述目标视频模板完成图像帧的拼接，从而实现根据拼接结果获得连贯且清晰的目标图像。

在对所述图像帧序列中包含的各个图像帧进行拼接时，由于所述目标视频模板为连续播放的视频，因此如果需要完成对各个图像帧的拼接，则需要逐帧排序后才能够完成，本实施例中，具体实现方式如下所述：

对所述目标视频模板进行分帧处理，获得视频帧集合；

具体的，所述视频帧集合具体是指所述目标视频模板经过分帧处理后得到的视频帧组成的集合。

基于此，为了能够保证后续生成的目标视频的流畅度更好，且与音频契合度更高，首先可以对所述目标视频模板进行分帧处理，获得多个视频帧组成的视频帧集合，其次确定图像帧序列中包含的各个图像帧序列与视频帧集合中包含的各个视频帧之间的对应关系；再次基于该对应关系和各个视频帧之间的排列顺序，对图像帧序列中的各个图像帧进行排序即可，最后即可根据排序结果对图像帧序列中包含的各个图像帧进行拼接，以获得后续生成目标视频的基本要素。

沿用上例，在获得驱动特征和人脸主体特征后，此时可以先将目标视频特征和目标音频特征融合的驱动特征与人脸主体特征一同输入到解码器进行处理，以获得解码器输出的多个图像帧组成的图像帧序列；此时为了能够基于图像帧序列创建出满足需求的目标视频，可以按照目标视频模板对图像帧序列中的多个图像帧进行排序，根据排序结果即可得到图2所示的人脸图像中的人物朗读古诗《静夜思》的目标视频。

进一步的，在拼接图像帧的过程中，可以先对目标视频帧进行分帧处理，获得10个视频帧组成的视频帧集合，之后将图像帧序列中包含的10个图像帧分别与10个视频帧建立对应关系，即建立人脸表情、口型和头部姿态相同的视频帧和图像帧的对应关系，在建立完成10个对应关系后，可以基于该对应关系以及10个视频帧在目标视频模板中的排列顺序，对10个图像帧进行排序，最后再将排序后的10个图像帧进行拼接，即可得到创建出图2所示的人脸图像中的人物朗读古诗《静夜思》的目标视频。

综上，为了能够提高生成的目标视频的流畅度和音/视频的匹配度，将按照视频帧的排列顺序进行图像帧的排序，以根据排序结果对图像帧进行拼接，从而保证生成的目标视频更加真实。

此外，由于目标视频是结合人脸图像和多媒体模板生成的，如果生成的目标视频中人脸活动幅度较大，可能会产生背景混乱的问题，即人脸活动幅度过大会造成背景无法正确显示，因此为了避免复杂背景带来的混乱问题，可以对背景进行剔除处理，本实施例中，具体实现方式如下所述：

识别所述图像帧序列包含的各个图像帧中的人脸区域；

具体的，所述人脸区域具体是指在所述图像帧中包含的人脸所对应的区域；相应的，所述背景剔除处理具体是指删除背景区域的处理；所述目标图像帧序列具体是指剔除背景后的图像帧，且各个目标图像帧中包含人脸图像。

基于此，为了避免背景混乱带来的观看体验降低的影响，首先可以识别所述图像帧中各个图像帧中的人脸区域，之后基于各个图像帧中的人脸区域对各个图像帧进行背景剔除处理，以获得多个目标图像帧组成的目标图像帧序列，最后基于所述目标图像帧序列即可创建出所述人脸图像对应的所述目标视频。

具体实施时，基于所述目标图像帧序列中包含的各个目标图像帧生成所述目标视频的过程可以参见上述实施例相似的描述内容，本实施例在此不作过多赘述。

沿用上例，在得到10个图像帧组成的图像帧序列后，为了避免出现背景混乱问题，可以分别识别10个图像帧中的人脸区域，在识别到各个图像帧中的人脸区域后，基于人脸区域剔除10个图像帧中的背景区域，根据剔除处理结果获得10个目标图像帧，最后将10个目标图像帧进行拼接，即可得到人物朗读古诗《静夜思》的目标视频。

综上，在生成目标视频前进行背景剔除处理，不仅可以避免背景混乱的问题，还能够降低目标视频的占用空间大小，从而进一步提高用户的观看体验，保证生成的目标视频符合用户预期需求。

参见图5所示的示意图，第一行所示的图像为视频模板中截取的四个图像帧，每个图像帧均具有表情、头部动作和口型；第二行第一列所示的图像为经过预处理的目标人脸图像；第三行第一列所示的图像剔除背景影响的目标人脸图像；第二行第二列至第五列为基于目标视频模板和目标音频模板生成的具有背景的四个图像帧，第三行第二列至第五列为基于目标视频模板和目标音频模板生成的不具有背景的四个图像帧。

基于此，由于图像帧序列是基于目标视频模板和目标音频模板驱动而得到的，因此图像帧序列中各个图像帧中的表情、头部动作和口型都将与视频模板中的相同；而在此过程中，由于人脸图像会发生偏转，会对原遮挡住的背景进行释放，从而会带动背景发生变化，为了避免造成背景混乱，可以根据上下文推导出被遮挡的背景，以生成如图5中第二行第二列至第五列具有背景的图像帧；同时在某些场景下可以不需要背景装饰，则可以生成如图5中第三行第二列至第五列具有背景的图像帧，即使在人脸图像发生偏转后，也不会暴露背景内容，从根本上解决背景混乱的问题。

此外，考虑到口型与表情动作不匹配的问题，为了能够生成更加自然的目标视频，可以选择头部姿态变化和表情变化较小的视频作为模板视频，以提高生成的视频的自然度。

本说明书提供的视频生成方法，在获取到人脸图像和多媒体模板的情况下，可以分别对所述人脸图像和所述多媒体模板进行预处理，以获得所述目标人脸图像和目标多媒体模板，以减少其他因素对生成视频的质量产生影响，同时还能够提高人脸图像和多媒体模板的契合度，以方便后续生成流畅度更高的目标视频；进一步的，得到目标人脸图像和目标多媒体模板后，可以采用目标人脸图像对应的人脸特征和目标多媒体模板对应的多媒体特征融合的方式，获得所述图像帧序列，最后基于所述图像帧序列即可生成所述人脸图像对应的目标视频，所述目标视频是以所述人脸图像为主体，以所述多媒体模板中的多媒体资源为驱动动作，达到人脸图像和多媒体模板融合的目的，实现生成的目标视频中主体动作更加连贯和流畅，与多媒体模板契合度较高，有效的提高了生成的目标视频的质量。

下述结合附图5-1，以本申请提供的视频生成方法对阅读课文的应用为例，对所述视频生成方法进行进一步说明。其中，图5-1示出了本申请一实施例提供的一种应用于阅读课文场景中的视频生成方法的处理流程图，具体包括以下步骤：

步骤S502，获取人脸图像、视频模板和音频模板。

步骤S504，检测人脸图像中的人脸区域，并基于人脸区域对人脸图像进行裁剪获得中间人脸图像。

步骤S506，将中间人脸图像输入至图像处理模型进行处理，获得人脸图像对应的目标人脸图像。

步骤S508，将目标人脸图像输入至图像编码器进行处理，获得图像编码器输出的人脸特征。

步骤S510，对视频模模板进行人脸检测，获得视频模板中包含人脸的视频区间。

步骤S512，基于视频区间对视频模板进行裁剪处理，获得目标视频模板。

步骤S514，将目标视频模板输入至视频编码器进行处理，获得视频编码器输出的目标视频特征。

步骤S516，对音频模板进行降噪处理，获得中间音频模板。

步骤S518，识别中间音频模板中的音频区间，并基于音频区间对中间音频模板进行裁剪处理，获得目标音频模板。

步骤S520，将目标音频模板输入至音频编码器进行处理，获得音频编码器输出的目标音频特征。

步骤S522，将目标视频特征和目标音频特征进行特征融合，获得驱动特征。

实际应用中，步骤S504-S508，步骤S510-S514以及步骤S516-S520的执行顺序可以同时执行，也可以先后执行，本实施例在此不作任何限定。

步骤S524，将驱动特征和人脸特征输入至图像解码器进行处理获得图像解码器输出的多个图像帧，并组成图像帧序列。

步骤S526，将图像帧序列中包含的各个图像帧按照目标视频模板进行拼接，根据拼接结果获得人脸图像对应的目标视频。

具体的，音频模板中包含的音频内容为阅读课本上S课文的内容，人脸图像为人物丁的头像，视频模板为人物戊脱口秀的视频，此时基于三者生成的目标视频为：人物丁通过人物戊的表情、口型和头部姿态阅读S课文的内容。

综上所述，通过选择人脸图像、视频模板和音频模板生成目标视频，保证生成的目标视频中主体动作更加连贯和流畅，与多媒体模板契合度较高，有效的提高了生成的目标视频的质量。

与上述方法实施例相对应，本说明书还提供了视频生成装置实施例，图6示出了本说明书一实施例提供的一种视频生成装置的结构示意图。如图6所示，该装置包括：

获取模块602，被配置为获取人脸图像和多媒体模板；

处理模块604，被配置为对所述人脸图像和所述多媒体模板分别进行预处理，获得所述人脸图像对应的目标人脸图像以及所述多媒体模板对应的目标多媒体模板；

确定模块606，被配置为确定所述目标人脸图像对应的人脸特征，以及所述目标多媒体模板对应的多媒体特征；

创建模块608，被配置为基于所述多媒体特征和所述人脸特征生成图像帧序列，并根据所述图像帧序列创建所述人脸图像对应的目标视频。

一个可选的实施例中，所述处理模块604进一步被配置为：

检测所述人脸图像中的人脸区域，并基于所述人脸区域对所述人脸图像进行裁剪获得中间人脸图像；将所述中间人脸图像输入至图像处理模型进行处理，获得所述人脸图像对应的所述目标人脸图像。

一个可选的实施例中，所述多媒体模板中包含视频模板和音频模板；

相应的，所述处理模块604进一步被配置为：

对所述视频模板和所述音频模板分别进行预处理，获得所述视频模板对应的目标视频模板以及所述音频模板对应的目标音频模板；基于所述目标视频模板和所述目标音频模板组成所述目标多媒体模板。

一个可选的实施例中，所述确定模块606进一步被配置为：

一个可选的实施例中，所述创建模块608进一步被配置为：

将所述多媒体特征和所述人脸特征输入至图像解码器进行处理，获得所述图像解码器输出的多个图像帧；基于所述多个图像帧生成所述图像帧序列。

一个可选的实施例中，所述创建模块608进一步被配置为：

将所述图像帧序列中包含的各个图像帧按照所述目标视频模板进行拼接；根据拼接结果获得所述人脸图像对应的所述目标视频。

一个可选的实施例中，所述处理模块604进一步被配置为：

对所述视频模板进行人脸检测，获得所述视频模板中包含人脸的视频区间；基于所述视频区间对所述视频模板进行裁剪处理，获得所述目标视频模板；相应的，对所述音频模块进行预处理，获得所述音频模板对应的目标音频模板，包括：对所述音频模板进行降噪处理，获得中间音频模板；识别所述中间音频模板中的音频区间，并基于所述音频区间对所述中间音频模板进行裁剪处理，获得所述目标音频模板。

一个可选的实施例中，所述创建模块608进一步被配置为：

对所述目标视频模板进行分帧处理，获得视频帧集合；确定所述图像帧序列中包含的各个图像帧与所述视频帧集合中包含的各个视频帧之间的对应关系；基于所述对应关系和所述视频帧集合中包含的各个视频帧之间的排列顺序，对所述图像帧序列中包含的各个图像帧进行排序；按照排序结果对所述图像帧序列中包含的各个图像帧进行拼接。

一个可选的实施例中，所述视频模板通过如下方式确定：

判断预设的视频模板库中是否存在与所述音频模板关联的初始视频模板；若是，计算所述初始视频模板与所述音频模板之间的关联度，选择关联度最高的初始视频模板作为所述视频模板；若否，基于预设的视频筛选条件在所述视频模板库中筛选所述视频模板。

一个可选的实施例中，所述创建模块608进一步被配置为：

识别所述图像帧序列包含的各个图像帧中的人脸区域；基于各个图像帧中的人脸区域对各个图像帧进行背景剔除处理，获得目标图像帧组成的目标图像帧序列；基于所述目标图像帧序列创建所述人脸图像对应的所述目标视频。

上述为本实施例的一种视频生成装置的示意性方案。需要说明的是，该视频生成装置的技术方案与上述的视频生成方法的技术方案属于同一构思，视频生成装置的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

图7示出了根据本说明书一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令：

获取人脸图像和多媒体模板；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

获取人脸图像和多媒体模板；

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频生成方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频生成方法，其特征在于，包括：

获取人脸图像和多媒体模板；

2.根据权利要求1所述的视频生成方法，其特征在于，对所述人脸图像进行预处理，获得所述人脸图像对应的目标人脸图像，包括：

3.根据权利要求1所述的视频生成方法，其特征在于，所述多媒体模板中包含视频模板和音频模板；

4.根据权利要求1所述的视频生成方法，其特征在于，确定所述目标人脸图像对应的人脸特征，包括：

5.根据权利要求3所述的视频生成方法，其特征在于，确定所述目标多媒体模板对应的多媒体特征，包括：

6.根据权利要求1所述的视频生成方法，其特征在于，基于所述多媒体特征和所述人脸特征生成图像帧序列，包括：

基于所述多个图像帧生成所述图像帧序列。

7.根据权利要求3所述的视频生成方法，其特征在于，根据所述图像帧序列创建所述人脸图像对应的目标视频，包括：

根据拼接结果获得所述人脸图像对应的所述目标视频。

8.根据权利要求3所述的视频生成方法，其特征在于，所述对所述视频模板进行预处理，获得所述视频模板对应的目标视频模板，包括：

对所述音频模板进行降噪处理，获得中间音频模板；

9.根据权利要求7所述的视频生成方法，其特征在于，所述将所述图像帧序列中包含的各个图像帧按照所述目标视频模板进行拼接，包括：

对所述目标视频模板进行分帧处理，获得视频帧集合；

10.根据权利要求3所述的视频生成方法，其特征在于，所述视频模板通过如下方式确定：

11.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述图像帧序列创建所述人脸图像对应的目标视频，包括：

识别所述图像帧序列包含的各个图像帧中的人脸区域；

12.一种视频生成装置，其特征在于，包括：

获取模块，被配置为获取人脸图像和多媒体模板；

13.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现权利要求1至11任意一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有计算机指令，该指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。