CN111988658A

CN111988658A - 视频生成方法及装置

Info

Publication number: CN111988658A
Application number: CN202010889353.7A
Authority: CN
Inventors: 梁智聪
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-11-24
Anticipated expiration: 2040-08-28
Also published as: CN111988658B

Abstract

本申请实施例提供一种视频生成方法及装置，该方法包括：获取语音信息和第一人脸图像；根据所述语音信息和所述第一人脸图像生成第一视频，所述第一视频包括所述第一人脸图像对应的人物读所述语音信息时的第一面部特征变化；根据所述第一视频，确定多个人脸部位对应的动作特征；根据所述动作特征和虚拟对象，生成动画视频，所述动画视频包括所述虚拟对象读所述语音信息时的面部特征变化。本申请的方案，工程量较小，操作简便，且灵活性较佳。

Description

视频生成方法及装置

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种视频生成方法及装置。

背景技术

虚拟偶像是一种通过绘画、动画等形式制作，在网络、电视等虚拟场景进行活动的架空形象，可以与用户或观众进行互动交流，具备广泛的应用前景。

虚拟偶像需要具备声音和与当前语音情景匹配的动作表情，从而得到虚拟偶像的视频。目前虚拟偶像的动作标签的实现是通过捕捉真人动作并生成三维动作数据，然后根据三维动作数据来驱动虚拟偶像进行动作模拟的。该方案的缺点是，对于虚拟偶像的每一次动作表情的生成，都需要对真人的动作进行捕捉，其工程量巨大，且灵活性较差。

发明内容

本申请实施例提供一种视频生成方法及装置，以解决目前虚拟偶像的视频生成方法工程量巨大且灵活性较差的问题。

第一方面，本申请实施例提供一种视频生成方法，包括：

获取语音信息和第一人脸图像；

根据所述语音信息和所述第一人脸图像生成第一视频，所述第一视频包括所述第一人脸图像对应的人物读所述语音信息时的第一面部特征变化；

根据所述第一视频，确定多个人脸部位对应的动作特征；

根据所述动作特征和虚拟对象，生成动画视频，所述动画视频包括所述虚拟对象读所述语音信息时的第二面部特征变化。

在一种可能的实施方式中，根据所述语音信息和所述第一人脸图像生成第一视频，包括：

对所述语音信息和所述第一人脸图像进行处理，得到多张第二人脸图像，所述第二人脸图像为所述人物读所述语音信息时的人脸图像；

按照预设帧率合成所述多张第二人脸图像，得到所述第一视频。

在一种可能的实施方式中，对所述语音信息和所述第一人脸图像进行处理，得到多张第二人脸图像，包括：

通过预设模型对所述语音信息和所述第一人脸图像进行处理，得到多张第二人脸图像；

其中，所述预设模型为对多组样本学习得到的，每组样本包括音频特征和混合图像。

在一种可能的实施方式中，任意一组样本通过如下步骤获取：

获取视频数据，所述视频数据为样本用户读样本语音的视频；

根据所述视频数据获取音频特征、所述音频特征对应的匹配人脸图像和所述音频特征对应的非匹配人脸图像；

根据所述匹配人脸图像获取被覆盖人脸图像，所述被覆盖人脸图像为覆盖了所述匹配人脸图像的嘴部区域的图像；

对所述非匹配人脸图像和所述被覆盖人脸图像进行拼接处理，得到混合图像。

在一种可能的实施方式中，所述预设模型包括生成子模型和判别子模型；所述预设模型的训练步骤如下：

将所述音频特征和所述混合图像输入至生成子模型，并通过所述生成子模型对所述音频特征和所述混合图像进行特征融合处理，得到人脸图像；

将所述音频特征和所述人脸图像输入至所述判别子模型，得到判别结果；

根据所述判别结果和所述匹配人脸图像，得到所述预设模型的判别损失；

根据所述判别损失对所述生成子模型和所述判别子模型的参数进行调整，得到训练完成的预设模型。

在一种可能的实施方式中，通过预设模型对所述语音信息和所述第一人脸图像进行处理，得到多张第二人脸图像，包括：

在所述语音信息中确定多个音频段；

分别将每个音频段和所述第一人脸图像输入至所述预设模型，以使所述预设模型分别输出每个音频段对应的第二人脸图像。

在一种可能的实施方式中，所述第一人脸图像的数量为一张；分别将每个音频段和所述第一人脸图像输入至所述预设模型，包括：

复制所述第一人脸图像，直至所述第一人脸图像的数量与所述音频段的数量相等；

分别将每个音频段和每张所述第一人脸图像输入至所述预设模型。

在一种可能的实施方式中，所述第一人脸图像为连续的图像帧；分别将每个音频段和所述第一人脸图像输入至所述预设模型，包括：

分别将每个音频段和所述连续的图像帧中的一帧第一人脸图像输入至所述预设模型。

在一种可能的实施方式中，针对所述多个人脸部位中的任意一个第一人脸部位；根据所述第一视频，确定所述第一人脸部位对应的动作特征，包括：

在所述第一视频中提取所述第一人脸部位对应的多个连续动作；

根据所述第一人脸部位对应的多个连续动作，确定所述第一人脸部位对应的动作特征。

在一种可能的实施方式中，根据所述动作特征和虚拟对象，生成动画视频，包括：

根据所述动作特征和所述虚拟对象，确定所述虚拟对象的多个人脸部位对应的面部表情序列；

根据所述虚拟对象的多个人脸部位对应的面部表情序列和所述语音信息，生成所述动画视频。

在一种可能的实施方式中，根据所述虚拟对象的多个人脸部位对应的面部表情序列和所述语音信息，生成所述动画视频，包括：

根据所述虚拟对象的多个人脸部位对应的面部表情序列，生成所述虚拟对象的动作视频；

将所述动作视频和所述语音信息合成处理，得到所述动画视频。

在一种可能的实施方式中，所述方法还包括：

获取文本信息；

将所述文本信息输入至文字转语音模型，得到所述语音信息；

其中，所述文字转语音模型为对多组文字转语音样本学习得到的，每组文字转语音样本包括样本文字和所述样本文字对应的样本语音。

第二方面，本申请实施例提供一种视频生成装置，包括：

获取模块，用于获取语音信息和第一人脸图像；

生成模块，用于根据所述语音信息和所述第一人脸图像生成第一视频，所述第一视频包括所述第一人脸图像对应的人物读所述语音信息时的第一面部特征变化；

确定模块，用于根据所述第一视频，确定多个人脸部位对应的动作特征；

处理模块，用于根据所述动作特征和虚拟对象，生成动画视频，所述动画视频包括所述虚拟对象读所述语音信息时的第二面部特征变化。

在一种可能的实施方式中，所述生成模块具体用于：

在所述语音信息中确定多个音频段；

在一种可能的实施方式中，所述第一人脸图像的数量为一张；所述生成模块具体用于：

在一种可能的实施方式中，所述第一人脸图像为连续的图像帧；所述生成模块具体用于：

在一种可能的实施方式中，针对所述多个人脸部位中的任意一个第一人脸部位；所述确定模块具体用于：

在一种可能的实施方式中，所述处理模块具体用于：

在一种可能的实施方式中，所述获取模块还用于：

获取文本信息；

第三方面，本申请实施例提供一种视频生成设备，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如第一方面中任一所述的视频生成方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如第一方面中任一所述的视频生成方法。

本申请实施例提供的视频生成方法及装置，首先获取语音信息和第一人脸图像，然后根据语音信息和第一人脸图像生成第一视频。在得到第一视频之后，根据第一视频确定多个人脸部位对应的动作特征，并根据这多个人脸部位对应的动作特征和虚拟对象，生成动画视频。本申请的方案，针对虚拟对象每一次动作表情的生成，无需每一次都对真人的动作进行捕捉，而是只获取真人的一张第一人脸图像，并通过第一人脸图像生成第一视频，根据第一视频中人脸部位对应的动作特征驱动虚拟对象的表情和动作即可，工程量较小，操作简便，且灵活性较佳。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的视频生成方法的流程示意图；

图3为本申请又一实施例提供的视频生成方法的流程示意图；

图4为本申请实施例提供的生成子模型构建示意图；

图5为本申请实施例提供的判别子模型构建示意图；

图6为本申请实施例提供的视频生成装置的结构示意图；

图7为本申请实施例提供的视频生成设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种应用场景示意图，如图1所示，包括客户端11和服务器12。客户端11和服务器12之间通过无线网络连接。

图1示例的应用场景，可应用于视频生成方案中。客户端11获取语音信息和用户的人脸图像，然后向服务器12发送该语音信息和用户的人脸图像。服务器12获取到该语音信息和用户的人脸图像后，可以对语音信息和用户的人脸图像进行处理，驱动虚拟对象读该语音信息，并进行相应的面部表情，从而得到对应的动画视频。

图1仅仅是对本申请的一种适用的应用场景进行描述，并不构成对实际的应用场景的限制。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请实施例提供的视频生成方法的流程示意图，如图2所示，包括：

S21，获取语音信息和第一人脸图像。

语音信息为后续生成的动画视频中虚拟对象需要发出的语音，语音信息的获取方式可以有多种，例如可以预先由配音人员配好语音信息，也可以通过文本信息得到相应的语音信息，等等。

第一人脸图像为一张人脸图像，第一人脸图像中有一个对应的人物，第一人脸图像中包括该人物的人脸，本申请实施例中的人物为一个真人即可，对人物的具体身份并无限制。

S22，根据所述语音信息和所述第一人脸图像生成第一视频，所述第一视频包括所述第一人脸图像对应的人物读所述语音信息时的第一面部特征变化。

在得到语音信息和人物的第一人脸图像之后，根据语音信息和人物的第一人脸图像，可以得到第一视频，在第一视频中包括的内容是，该人物在读该语音信息，第一视频中包括该语音信息的播放，且包括该人物的第一面部特征变化，同时，第一面部特征变化与人物读该语音信息是相关的。第一面部特征变化可以包括口型的变化，面部表情的变化等等。

S23，根据所述第一视频，确定多个人脸部位对应的动作特征。

在得到了第一视频之后，可以获取该人物在读该语音信息时的面部特征变化，从而确定多个人脸部位对应的动作特征。视频通常是由多帧图像组合而成，在第一视频中可以包括多帧图像，针对每一帧图像，均可以确定该人物的人脸部位对应的动作特征。将其按照时间顺序连贯起来，就能够得到人脸面部特征的一系列变化。

S24，根据所述动作特征和虚拟对象，生成动画视频，所述动画视频包括所述虚拟对象读所述语音信息时的第二面部特征变化。

在得到多个人脸部位对应的动作特征之后，根据每个人脸部位对应的动作特征，可以驱动虚拟对象进行相应的面部动作，虚拟对象的面部特征变化与第一视频中人物的面部特征变化一致。同时，配合语音信息，共同形成动画视频。在动画视频中，播放的内容是，虚拟对象读该语音信息，且虚拟对象在读该语音信息时，其面部表情特征会相应随着语音信息进行变化。

本申请实施例提供的视频生成方法，首先获取语音信息和第一人脸图像，然后根据语音信息和第一人脸图像生成第一视频。在得到第一视频之后，根据第一视频确定多个人脸部位对应的动作特征，并根据这多个人脸部位对应的动作特征和虚拟对象，生成动画视频。本申请的方案，针对虚拟对象每一次动作表情的生成，无需每一次都对真人的动作进行捕捉，而是只获取真人的一张第一人脸图像，并通过第一人脸图像生成第一视频，根据第一视频中人脸部位对应的动作特征驱动虚拟对象的表情和动作即可，工程量较小，操作简便，且灵活性较佳。

下面将对本申请的方案进行详细介绍。

图3为本申请又一实施例提供的视频生成方法的流程示意图，如图3所示，包括：

S31，获取语音信息和第一人脸图像。

S31的步骤与S21的步骤相同，具体内容可参见S21的步骤。

可选的，由于语音信息可以通过相应的文本信息获取，首先获取文本信息，然后将文本信息输入至文字转语音模型，从而得到该语音信息。

在采用文本信息和文字转语音模型得到语音信息之前，首先要训练文字转语音模型。

具体的，可以通过多组文字转语音样本对模型进行训练得到，每组文字转语音样本包括样本文字和样本文字对应的样本语音，样本文字和对应的样本语音包括的含义是一致的。例如，当样本文字为“秋天到了”，则对应的样本语音的内容也是“秋天到了”。

需要说明的是，样本文字中也可以包括各种标点符号，相同的文字在不同的标点符号下，其表达的含义和感情可能不同，因此将其转换为语音时也可能略有不同。

文字转语音模型通过学习大量语音信息特征，把文字和语音的特征相匹配，可以把一段文字直接生成对应的朗读语音。文字转语音模型可以采用深度学习技术来实现，通过收集大量标注过的样本语音和样本文字用于模型的训练，从而使得模型具备将输入的文本转化成对应的语音的功能。

同时，还可以设置不同的音色来进行选择，用户可以根据实际需要选择合适的音色，等等。

S32，对所述语音信息和所述第一人脸图像进行处理，得到多张第二人脸图像，所述第二人脸图像为所述人物读所述语音信息时的人脸图像。

具体的，可以通过预设模型对语音信息和第一人脸图像进行处理，得到多张第二人脸图像；

其中，预设模型为对多组样本学习得到的，每组样本包括音频特征和混合图像。

在采用预设模型对语音信息和第一人脸图像进行处理之前，首先要训练预设模型，下面先对预设模型的训练过程进行介绍。

预设模型可以是一个通过训练得到的深度学习模型，预设模型的功能是输入一张/多张人脸图像以及一段语音信息，则可以生成该人脸图像中的人物朗读这一段语音的模拟嘴部动作。

在训练预设模型之前，首先需要获取训练样本。任意一组样本的获取步骤包括，首先获取视频数据，视频数据为样本用户读样本语音的视频。例如，可以收集人物说话的视频，可以包括采访、新闻播报、自拍录制的视频等等，这些训练素材需要同时包含人声和人物说话时的嘴部变化动作，用于提取声音特征和其对应的嘴部动作变化特征。

在获取到视频后，需要对视频数据进行预处理。根据视频数据获取音频特征，该音频特征对应的匹配人脸图像和该音频特征的非匹配人脸图像，然后根据匹配人脸图像获取被覆盖人脸图像，其中被覆盖人脸图像指的是覆盖了匹配人脸图像的嘴部区域的图像。最后，对非匹配人脸图像和被覆盖人脸图像进行拼接处理，得到混合图像。一组样本就包括音频特征和该混合图像。

例如，可以对视频做抽帧处理，然后以帧为中心取对应长度的语音数据(例如每秒取20帧，则语音长度为50ms)。语音数据需要做特征提取，提取的特征手段例如可以为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征和梅尔频谱(Melspectrogram)特征。把抽取的图像和语音特征一一对应起来，作为模型的训练样本。

本申请实施例中的预设模型可以采用生成式对抗模型(generative adversarialnetwork,GAN)基本架构。该架构由生成子模型和判别子模型两个部分组成，其中在生成子模型中输入样本图像和样本语音，输出合成后的图像，而判别子模型用于判别合成后的图像的真实程度，以及样本图像与样本语音的匹配程度。生成式模型是GAN架构的主体部分，判别式模型的主要目的是辅助训练。本申请实施例中，可以只采用生成式模型部分，训练时间会减少但效果下降。

在进行预设模型的构建时，首先构建模型的输入数据，从数据集中取一个音频特征(Audio Feature,AF)及其对应的图片作为匹配人脸图像(Real Face,RF)，另外再取一张相隔多帧的图片，作为音频的非匹配人脸图像(Mismatched Face,MiF)；其次是提取RF的人脸特征点信息，定位到人脸的嘴部区域，把该区域的图片像素值置为0，得到被覆盖人脸图像(Masked Face,MaF)，并把MiF与MaF在通道维度进行拼接，得到混合图像(Hybrid Face,HF)。

在完成了样本的获取之后，需要进行预设模型的训练，预设模型包括生成子模型和判别子模型。在训练过程中，针对首先将样本(包括音频特征和混合图像)输入至生成子模型，并通过生成子模型对音频特征和混合图像进行特征融合处理，得到人脸图像；然后将音频特征和人脸图像输入至判别子模型，得到判别结果。

在得到判别结果之后，根据该判别结果和匹配人脸图像，得到预设模型的判别损失；并根据判别损失对生成子模型和判别子模型的参数进行调整，得到训练完成的预设模型。

图4为本申请实施例提供的生成子模型构建示意图，如图4所示，生成子模型是一个两路输入的编码-解码(Encode-Decode)模型，编码(Encode)部分分别对输入的语音特征和人脸图像(6通道)做特征提取，实际输入数据分别为AF和HF。解码(Decode)部分把以上两个特征做融合，并生成同时具有两者特征信息的新的人脸图片(3通道)，输出的结果是合成的人脸图片(Fake Face,FF)。生成子模型构建完成后，可以进行判别子模型的构建。图5为本申请实施例提供的判别子模型构建示意图，如图5所示，判别子模型是一个分类模型，同时输入人脸图片(3通道)和音频特征，输出为二分类判断结果(1/真，0/假)。

生成子模块和判别子模型共同构成本申请中的预设模型。在构造了预设模型之后，向构造的预设模型中输入样本，得到预设模型输出的样本人脸图像，然后根据输出的样本人脸图像，对预设模型进行调整，直至预设模型达到要求，训练完成即可。

在预设模型训练完成之后，可以在语音信息中确定多个音频段，然后分别将每个音频段和该音频段对应的第一人脸图像输入至该预设模型，使得该预设模型分别输出每个音频段对应的第二人脸图像。

具体的，当第一人脸图像的数量为一张时，可以复制第一人脸图像，直至第一人脸图像的数量与音频段的数量相等，然后分别将每个音频段和每张第一人脸图像输入至该预设模型，得到输出的每个音频段对应的第二人脸图像。

当第一人脸图像为连续的图像帧时，可以分别将每个音频段和连续的图像帧中的一帧第一人脸图像输入至该预设模型，得到输出的每个音频段对应的第二人脸图像。

S33，按照预设帧率合成所述多张第二人脸图像，得到所述第一视频。

在得到多张第二人脸图像之后，即可合成得到对应的第一视频，其中，预设帧率可以根据实际需要确定，本申请实施例对此不做特别限定。

S34，针对多个人脸部位中的任意一个第一人脸部位，在所述第一视频中提取所述第一人脸部位对应的多个连续动作。

第一视频中包括多帧图像，针对第一人脸部位，可以获取每帧图像中第一人脸部位的位置和特征，然后根据多帧图像的排列顺序，即可得到第一人脸部位对应的多个连续动作。

S35，根据所述第一人脸部位对应的多个连续动作，确定所述第一人脸部位对应的动作特征。

S36，根据每个人脸部位对应的动作特征和所述虚拟对象，确定所述虚拟对象的多个人脸部位对应的面部表情序列。

例如，可以采用人脸特征点检测算法对第一视频中的人脸特征进行提取，得到第一人脸部位对应的动作特征，即第一人脸部位的人脸特征点变化序列。然后，可以提取需要合成的动作的特征点，形成动作控制序列，即不同部位的特征分别控制虚拟对象各个部位的面部表情。

通过每个人脸部位对应的动作特征和该虚拟对象，可以合成虚拟对象的多个人脸部位对应的面部表情序列。例如，可以预先设置虚拟对象各个动作的特征控制映射，然后根据上述动作控制序列一一对应组合得到虚拟对象对应的面部表情序列。

S37，根据所述虚拟对象的多个人脸部位对应的面部表情序列和所述语音信息，生成所述动画视频。

具体的，可以根据虚拟对象的多个人脸部位对应的面部表情序列，生成虚拟对象的动作视频，然后将动作视频和语音信息合成处理，得到该动画视频。

由于上述方案中已经得到了虚拟对象对应的面部表情序列，因此，只要以相同帧率合并该语音信息，即可将虚拟对象的多个人脸部位对应的面部表情序列和该语音信息进行组合，得到完整的动画视频。

本申请实施例提供的视频生成方法，首先获取语音信息和第一人脸图像，然后根据语音信息和第一人脸图像生成第一视频。在得到第一视频之后，根据第一视频确定多个人脸部位对应的动作特征，并根据这多个人脸部位对应的动作特征和虚拟对象，生成动画视频。本申请的方案，针对虚拟对象每一次动作表情的生成，无需每一次都对真人的动作进行捕捉，而是只获取真人的一张第一人脸图像，并通过第一人脸图像生成第一视频，根据第一视频中人脸部位对应的动作特征驱动虚拟对象的表情和动作即可，工程量较小，同时，还可以仅通过添加文本素材就生成对应的语音和表情，并合成用户可观看的视频，操作简便，且灵活性较佳。

图6为本申请实施例提供的视频生成装置的结构示意图，如图6所示，包括：

获取模块61，用于获取语音信息和第一人脸图像；

生成模块62，用于根据所述语音信息和所述第一人脸图像生成第一视频，所述第一视频包括所述第一人脸图像对应的人物读所述语音信息时的第一面部特征变化；

确定模块63，用于根据所述第一视频，确定多个人脸部位对应的动作特征；

处理模块64，用于根据所述动作特征和虚拟对象，生成动画视频，所述动画视频包括所述虚拟对象读所述语音信息时的第二面部特征变化。

在一种可能的实施方式中，所述生成模块62具体用于：

在所述语音信息中确定多个音频段；

在一种可能的实施方式中，所述第一人脸图像的数量为一张；所述生成模块62具体用于：

在一种可能的实施方式中，所述第一人脸图像为连续的图像帧；所述生成模块62具体用于：

在一种可能的实施方式中，针对所述多个人脸部位中的任意一个第一人脸部位；所述确定模块63具体用于：

在一种可能的实施方式中，所述处理模块64具体用于：

在一种可能的实施方式中，所述获取模块61还用于：

获取文本信息；

本申请实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本申请实施例提供的视频生成设备的硬件结构示意图，如图7所示，该视频生成设备包括：至少一个处理器71和存储器72。其中，处理器71和存储器72通过总线73连接。

可选地，该模型确定还包括通信部件。例如，通信部件可以包括接收器和/或发送器。

在具体实现过程中，至少一个处理器71执行所述存储器72存储的计算机执行指令，使得至少一个处理器71执行如上的视频生成方法。

处理器71的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图7所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的视频生成方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种视频生成方法，其特征在于，包括：

获取语音信息和第一人脸图像；

根据所述第一视频，确定多个人脸部位对应的动作特征；

2.根据权利要求1所述的方法，其特征在于，根据所述语音信息和所述第一人脸图像生成第一视频，包括：

3.根据权利要求2所述的方法，其特征在于，对所述语音信息和所述第一人脸图像进行处理，得到多张第二人脸图像，包括：

4.根据权利要求3所述的方法，其特征在于，任意一组样本通过如下步骤获取：

5.根据权利要求4所述的方法，其特征在于，所述预设模型包括生成子模型和判别子模型；所述预设模型的训练步骤如下：

6.根据权利要求3所述的方法，其特征在于，通过预设模型对所述语音信息和所述第一人脸图像进行处理，得到多张第二人脸图像，包括：

在所述语音信息中确定多个音频段；

7.根据权利要求6所述的方法，其特征在于，所述第一人脸图像的数量为一张；分别将每个音频段和所述第一人脸图像输入至所述预设模型，包括：

8.根据权利要求6所述的方法，其特征在于，所述第一人脸图像为连续的图像帧；分别将每个音频段和所述第一人脸图像输入至所述预设模型，包括：

9.根据权利要求1-4任一项所述的方法，其特征在于，针对所述多个人脸部位中的任意一个第一人脸部位；根据所述第一视频，确定所述第一人脸部位对应的动作特征，包括：

10.根据权利要求1-5任一项所述的方法，其特征在于，根据所述动作特征和虚拟对象，生成动画视频，包括：

11.根据权利要求10所述的方法，其特征在于，根据所述虚拟对象的多个人脸部位对应的面部表情序列和所述语音信息，生成所述动画视频，包括：

12.根据权利要求1-11任一项所述的方法，其特征在于，所述方法还包括：

获取文本信息；

13.一种视频生成装置，其特征在于，包括：

获取模块，用于获取语音信息和第一人脸图像；

14.一种视频生成设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1至12中任一所述的视频生成方法。

15.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一所述的视频生成方法。