CN115147516A

CN115147516A - 虚拟形象视频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN115147516A
Application number: CN202210744674.7A
Authority: CN
Inventors: 邹泽宇
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-10-04

Abstract

本申请涉及人工智能领域，公开了一种虚拟形象视频生成方法、装置、设备及介质，方法包括：获取待处理视频，并基于目标对象的面部特征在待处理视频中提取预处理视频；在预处理视频中提取目标对象的面部视频、背景视频及语音信息；基于面部视频确定目标对象的唇部特征信息，并根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音；根据唇部动作视频与面部视频生成目标对象的面部融合视频；根据面部融合视频、背景视频及目标语音合成虚拟形象视频，使得虚拟形象视频中的目标对象的唇部动作与虚拟语音吻合，并使得到的虚拟形象视频能较好地还原目标对象唇部的实际动作。

Description

虚拟形象视频生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及大数据领域，尤其涉及一种虚拟形象视频生成方法、装置、计算机设备及存储介质。

背景技术

目前，人们可以通过自己的照片或视频生成个性化的虚拟形象，并基于虚拟形象生成对应的虚拟形象视频，并且在社交平台上分享交流时，人们可以用自己个性化的虚拟形象视频代替传统的真人视频，能有效地保护自己的隐私。

但在通过照片或视频直接生成虚拟形象视频视频时，虚拟形象的头部画面与动作的生成效果不能满足实际使用需求，尤其是虚拟形象视频中的目标对象存在唇部动作与虚拟语音割裂的问题，会导致得到的虚拟形象视频相对目标对象的实际面部动作还原度较差。

发明内容

本申请实施例提供一种虚拟形象视频生成方法、装置、计算机设备及介质，旨在使得虚拟形象视频中的目标对象的唇部动作与虚拟语音吻合，并使得到的虚拟形象视频能较好地还原目标对象唇部的实际动作。

第一方面，本申请实施例提供了一种虚拟形象视频生成方法，包括：

获取待处理视频，并基于目标对象的面部特征在待处理视频中提取预处理视频；

在预处理视频中提取目标对象的面部视频、背景视频及语音信息；

基于面部视频确定目标对象的唇部特征信息，并根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音；

根据唇部动作视频与面部视频生成目标对象的面部融合视频；

根据面部融合视频、背景视频及目标语音合成虚拟形象视频。

在一些实施方式中，在预处理视频中提取目标对象的面部视频及背景视频，包括：

在预处理视频中提取多个单帧图像；

对单帧图像进行语义分割处理获得至少一个与目标对象的面部对应的面部连通域；

根据多个单帧图像中的面部连通域生成对应目标对象的动态面部掩模模型；

基于动态面部掩模模型，在预处理视频中提取面部视频及背景视频。

在一些实施方式中，基于面部视频确定目标对象的唇部特征信息，包括：

在面部视频中提取多个面部图像帧；

对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域；

根据唇部连通域在面部图像帧中提取唇部图像；

将唇部图像输入预设的特征提取模型以提取目标对象的唇部特征信息，其中，唇部特征信息包括唇形特征信息、唇色特征信息以及唇部运动特征信息中的至少一种。

在一些实施方式中，对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域，包括：

对时间相邻的面部图像帧进行差分处理以获取差分图像帧；

将面部图像帧划分为多个子区域；

根据差分图像帧确定面部图像帧中多个子区域的平均差分值；

根据平均差分值将位置相邻的子区域进行合并以获取至少一个待定连通域，并在待定连通域中确定唇部连通域。

在一些实施方式中，根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音，包括：

将语音信息转换为对应的语音文本；

根据唇部特征信息从若干个预设的候选唇部动作模型中确定目标唇部动作模型；

根据所述目标唇部动作模型、所述语音信息及语音文本生成目标唇部动作视频；

根据语音信息及语音文本生成对应目标唇部动作视频的目标语音。

在一些实施方式中，根据语音信息及语音文本生成对应目标唇部动作视频的目标语音，包括：

根据语音信息生成语音文本对应的语音停顿信息；

根据语音停顿信息与语音文本生成语音文本序列；

将语音文本序列输入预设的语音合成模型以合成获取目标语音。

在一些实施方式中，根据唇部动作视频与面部视频生成目标对象的面部融合视频，包括：

根据面部视频生成虚拟面部视频；

识别虚拟面部视频中对应唇部的像素分区，并对像素分区进行消除处理以获得初步面部视频；

获取像素分区在虚拟面部视频的位置信息，并根据位置信息融合唇部动作视频与初步面部视频得到面部融合视频。

第二方面，本申请实施例还提供了一种虚拟形象视频生成装置，包括：

预处理模块，用于获取待处理视频，并基于目标对象的面部特征在待处理视频中提取预处理视频；

目标提取模块，用于在预处理视频中提取目标对象的面部视频、背景视频及语音信息；

唇部处理模块，用于基于面部视频确定目标对象的唇部特征信息，并根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音；

面部处理模块，用于根据唇部动作视频与面部视频生成目标对象的面部融合视频；

视频合成模块，用于根据面部融合视频、背景视频及目标语音合成虚拟形象视频。

第三方面，本申请实施例还提供了一种计算机设备，计算机设备包括存储器和处理器；

存储器，用于存储计算机程序；

处理器，用于执行的计算机程序并在执行的计算机程序时实现如本申请说明书任一实施例提供的虚拟形象视频生成方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时使处理器实现如本申请说明书任一实施例提供的虚拟形象视频生成方法。

本申请实施例提供了一种虚拟形象视频生成方法、装置、计算机设备及介质，其中，虚拟形象视频生成方法包括：获取待处理视频，并基于目标对象的面部特征在待处理视频中提取预处理视频；在预处理视频中提取目标对象的面部视频、背景视频及语音信息；基于面部视频确定目标对象的唇部特征信息，并根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音；根据唇部动作视频与面部视频生成目标对象的面部融合视频；根据面部融合视频、背景视频及目标语音合成虚拟形象视频，使得虚拟形象视频中的目标对象的唇部动作与虚拟语音吻合，并使得到的虚拟形象视频能较好地还原目标对象唇部的实际动作。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种虚拟形象视频生成方法的步骤流程示意图；

图2是图1虚拟形象视频生成方法中唇部特征信息确定步骤的流程示意图；

图3是图1虚拟形象视频生成方法中目标语音生成步骤的流程示意图；

图4是图3目标语音生成步骤中合成获取目标语音步骤的流程示意图；

图5是本申请实施例提供的一种虚拟形象视频生成装置的模块结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

目前，人们可以通过自己的照片或视频生成个性化的虚拟形象，并基于虚拟形象生成对应的虚拟形象视频，并且在社交平台上分享交流时，人们可以用自己个性化的虚拟形象视频代替传统的真人视频，能有效地保护自己的隐私。但在通过照片或视频直接生成虚拟形象视频视频时，虚拟形象的头部画面与动作的生成效果不能满足实际使用需求，尤其是虚拟形象视频中的目标对象存在唇部动作与虚拟语音割裂的问题，会导致得到的虚拟形象视频相对目标对象的实际面部动作还原度较差。

基于此，本申请实施例提供一种虚拟形象视频生成方法、装置、设备及介质，旨在令生成的虚拟形象视频中的目标对象的唇部动作与虚拟语音吻合，并使得到的虚拟形象视频能较好地还原目标对象唇部的实际动作。其中，本虚拟形象视频生成方法可应用于计算机、智能机器人、独立的服务器或服务器集群等电子设备，在此不做限定。

本实施例中，以该虚拟形象视频生成方法应用于计算机为例进行说明，但不局限于虚拟形象视频生成方法仅可以用于计算机。

下面结合附图，对本申请的一些实施方式作详细说明，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1为本申请实施例提供的一种虚拟形象视频生成方法的步骤示意流程图，该方法具体包括以下步骤S1-S6。

步骤S1、获取待处理视频，并基于目标对象的面部特征在待处理视频中提取预处理视频。

执行本方法的计算机可以根据输入的指令或链接下载待处理视频，也可以通过输入的视频存储位置调取待处理视频。示例性的，获取待处理视频可以是由执行本方法的计算机接收待处理视频的视频链接，并基于视频链接下载以获取该待处理视频，也可以是由执行本方法的计算机直接接收该待处理视频。

具体的，待处理视频包含至少一个目标对象的面部，可以理解的是，目标对象可以是目标人物或目标动物，本申请不对目标对象予以限定。

为了描述方便，下述实施例以目标对象为目标人物为例进行说明。

在获取待处理视频之后，执行本方法的计算机基于目标对象的面部特征在待处理视频中提取预处理视频。具体的，基于目标对象的面部特征在待处理视频中提取预处理视频包括：在所述待处理视频中提取得到多个图像帧，根据面部特征对图像帧进行面部识别，并包含面部特征的图像帧作为目标图像帧，当相邻两个图像帧均为目标图像帧，提取相邻两个图像帧之间的视频片段作为单元视频，对单元视频进行合并得到与目标对象对应的预处理视频。

应理解的是，待处理视频可以是多段离散的待处理视频或一段连续的待处理视频，当待处理视频为多段时，在基于目标对象的面部特征在待处理视频中提取预处理视频可以是：首先确定每一段待处理视频中的单元视频，然后对多段待处理视频中的单元视频进行合并得到预处理视频。

在一些实施方式中，基于目标对象的面部特征在待处理视频中提取预处理视频之前，还包括：获取目标对象的面部特征。具体的，获取目标对象的面部特征可以是接收用户输入的处理指令，并解析处理指令获取其中携带的目标对象的面部特征。

通过基于目标对象的面部特征在待处理视频的图像帧中确定目标图像帧，并根据目标图像帧提取预处理视频，可以确保得到的预处理视频中包含目标对象面部，剔除待处理视频中包含目标对象面部的部分片段，进一步提升了后续基于预处理视频合成虚拟形象视频的工作效率。

步骤S2、在预处理视频中提取目标对象的面部视频、背景视频及语音信息。

应理解，目标对象的面部视频为目标对象的面部所对应区域以内的视频，背景视频为目标对象的面部所对应的区域以内的视频，而语音信息可以是从预处理视频中提取得到的音轨，也可以是对从预处理视频中提取得到的音轨进行语音识别后得到的文本信息。

在预处理视频中提取多个单帧图像；

具体的，执行本方法的计算机在预处理视频中提取多个单帧图像，将单帧图像输入预设的语义分割模型并对单帧图像进行语义分割处理，以获得至少一个与目标对象的面部对应的面部连通域。

示例性的，预设的语义分割模型可以采用Deeplab模型或Mask R-CNN模型，以采用Deeplab模型对单帧图像进行语义分割处理为例：Deeplab模型是一个语义分割模型，它能确定单帧图像中各个元素的位置、对象类别以及轮廓，并根据识别结果将图像中的多种对象进行分割提取，得到多个对应不同对象类别的连通域。本实施例基于语义分割模型，对单帧图像进行分割，能确定待识别图像中对应不同语义的区域，比如对应语义为目标对象的面部的面部连通域。

在获得面部连通域之后，根据面部连通域生成对应目标对象的动态面部掩模模型，需知，在预处理视频中多个不同单帧图像所对应的面部连通域为动态的连通域，即面部连通域的边界会随着时间变化，可根据多个单帧图像中的面部连通域生成对应目标对象的动态面部掩模模型。

应理解的是，动态面部掩模模型与单帧图像的像素尺寸相匹配，根据面部连通域生成对应目标对象的动态面部掩模模型具体包括：将语义对应目标对象面部的面部连通域进行合并处理，并将面部连通域对应的像素作为前景并标记为“1”，将单帧图像中除面部连通域以外的像素作为背景并标记为“0”，由此得到语义对应目标对象面部的二值掩模图，然后基于多个不同时刻的单帧图像所对应的二值掩模图生成动态面部掩模模型，需知，动态面部掩模模型中包括不同单帧图像所对应的二值掩模图。

在获得动态面部掩模模型之后，基于动态面部掩模模型，在预处理视频中提取面部视频及背景视频。具体的，基于动态面部掩模模型获取单帧图像对应的二值掩模图，根据二值掩模图的标记为“1”的像素在多个单帧图像中可提取得到面部视频，根据二值掩模图的标记为“0”的像素在多个单帧图像中可提取得到背景视频。

步骤S3、基于面部视频确定目标对象的唇部特征信息，并根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音。

提取得到面部视频后，执行本方法的计算机基于面部视频确定目标对象的唇部特征信息，应理解，面部视频为动态，因此基于面部视频可确定目标对象在静态下的唇形特征信息或唇色特征信息，还可确定目标对象在动态下的唇部运动特征信息。

还应理解，唇形特征信息用于表征目标对象的唇部外轮廓形状，唇色特征信息用于表征目标对象的唇部颜色，而唇部运动特征信息用于表征目标对象在说话时唇部的运动特征，譬如，目标对象在说目标单词时唇部的运动位置与运动趋势。

如图2所示，在一些实施方式中，步骤S3中基于面部视频确定目标对象的唇部特征信息，具体包括步骤S310-步骤S340：

步骤S310:在面部视频中提取多个面部图像帧；

步骤S320:对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域；

步骤S330:根据唇部连通域在面部图像帧中提取唇部图像；

步骤S340:将唇部图像输入预设的特征提取模型以提取目标对象的唇部特征信息，其中，唇部特征信息包括唇形特征信息、唇色特征信息以及唇部运动特征信息中的至少一种。

具体的，首先在面部视频中提取多个时间离散的面部图像帧，例如可以在面部视频中提取对应时间均匀分布的多个面部图像帧，然后对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域，根据唇部连通域在面部图像帧中提取唇部图像，将唇部图像输入预设的特征提取模型以提取目标对象的唇部特征信息，其中，唇部特征信息包括唇形特征信息、唇色特征信息以及唇部运动特征信息中的至少一种。

应理解的是，以目标对象为目标人物为例，目标人物说话时其嘴部会运动，通过对多个面部图像帧进行差分处理可以快捷地确定在面部视频中运动元素对应的区域，并以该区域作为对应目标对象唇部的唇部连通域，极大地加快了提取唇部连通域的速度。

在一些实施方式中，步骤S340中对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域，具体包括：

对时间相邻的面部图像帧进行差分处理以获取差分图像帧；

将面部图像帧划分为多个子区域；

具体的，执行本方法的计算机在确定唇部连通域时，首先需要对时间相邻的面部图像帧进行差分处理以获取差分图像帧，应理解，差分图像帧可以是对时间相邻的至少两个面部图像帧进行差分处理获得，以对时间相邻的两个面部图像帧进行差分处理为例，差分图像帧中的每个像素都与时间相邻的两个面部图像帧中相对位置上的像素对应，且差分图像帧中每个像素的像素值为时间相邻的两个面部图像帧中相对位置上的像素值之间的差值。

获取差分图像帧后，将面部图像帧划分为多个子区域，根据差分图像帧确定面部图像帧中多个子区域的平均差分值，然后根据平均差分值将位置相邻的子区域进行合并以获取至少一个待定连通域，并在待定连通域中确定唇部连通域。

具体的，子区域中包括至少一个像素，根据预设规则对面部图像帧中的像素进行划分，可将面部图像帧划分为多个子区域，例如对面部图像帧依照预设的两组相互垂直的辅助线进行划分可以得到多个边界形状为矩形的子区域。

确定面部图像帧的子区域中的像素在差分图像帧上所对应的映射像素，并计算子区域对应的多个映射像素的像素值平均值，可得到面部图像帧中多个子区域的平均差分值。

在此之后，对平均差分值相近且相邻的子区域进行合并，以在面部图像帧中获取至少一个待定连通域，并在待定连通域中确定唇部连通域。其中，在待定连通域中确定唇部连通域具体包括：确定待定连通域中多个子区域的平均差分值，并基于待定连通域中多个子区域的平均差分值计算待定连通域对应的连通域差分值，当连通域差分值大于预设阈值时，将对应的待定连通域作为唇部连通域，从而极大地加快了提取唇部连通域的速度。

基于获得的唇部连通域，在面部图像帧中提取唇部图像，并将唇部图像输入预设的特征提取模型以提取目标对象的唇部特征信息，其中，唇部特征信息包括唇形特征信息、唇色特征信息以及唇部运动特征信息中的至少一种，然后根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音。

如图3所示，在一些实施方式中，步骤S3中根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音，具体包括步骤S350-步骤S380：

步骤S350：将语音信息转换为对应的语音文本；

步骤S360：根据唇部特征信息从若干个预设的候选唇部动作模型中确定目标唇部动作模型；

步骤S370：根据目标唇部动作模型、语音信息及语音文本生成目标唇部动作视频；

步骤S380：根据语音信息及语音文本生成对应目标唇部动作视频的目标语音。

具体的，语音信息可以是从预处理视频中提取得到的音轨，也可以是对从预处理视频中提取得到的音轨进行语音识别后得到的文本信息，当语音信息是从预处理视频中提取得到的音轨时，对语音信息进行语音文字识别，以将语音信息转换为对应的语音文本，根据唇部特征信息从若干个预设的候选唇部动作模型中确定目标唇部动作模型，然后根据目标唇部动作模型、语音信息及语音文本生成目标唇部动作视频，根据语音信息及语音文本生成对应目标唇部动作视频的目标语音。

在一些实施方式中，执行本方法的计算机中预先配置有若干个候选唇部动作模型，候选唇部动作模型包括对应的虚拟唇部贴图、以及用于驱动虚拟唇部进行运动的唇部驱动，根据唇部特征信息从若干个预设的候选唇部动作模型中确定目标唇部动作模型具体包括：根据唇形特征信息和唇色特征信息中的至少一者确定对应的虚拟唇部贴图，根据唇部运动特征信息确定对应的唇部驱动，然后基于对应的虚拟唇部贴图与唇部驱动从若干个预设的候选唇部动作模型中确定目标唇部动作模型。

通过结合静态的唇形特征信息、唇色特征信息以及动态的唇部运动特征信息确定目标唇部动作模型，使得后续得到的目标唇部动作视频以及虚拟形象视频都能较好地还原目标对象唇部的实际动作。

应理解，在目标对象在进行说话时往往会在部分位置进行停顿，在一些实施方式中，步骤S370具体包括：根据语音信息生成语音文本对应的语音停顿信息，其中，语音停顿信息用以表征语音文本中相邻的字或词之间停顿的第一停顿时间长度。然后建立语音文本时间轴，并根据语音停顿信息将语音文本中的字或词标注在语音文本时间轴上，以得到携带语音停顿信息的语音文本序列，将携带有语音停顿信息的语音文本序列输入目标唇部动作模型，以使目标唇部动作模型根据语音文本序列中的字或词、及相邻的字或词之间停顿的第一停顿时间长度、对应的虚拟唇部贴图与唇部驱动生成目标唇部动作视频，其中，目标唇部动作视频包括虚拟唇部在根据语音文本序列进行说话时的动作。

如图4所示，在一些实施方式中，步骤S380具体包括步骤S381-步骤S383：

步骤S381：根据语音信息生成语音文本对应的语音停顿信息；

步骤S382：根据语音停顿信息与语音文本生成语音文本序列；

步骤S383：将语音文本序列输入预设的语音合成模型以合成获取目标语音。

执行本方法的计算机首先根据语音信息生成语音文本对应的语音停顿信息，语音停顿信息用以表征语音文本中相邻的字或词之间停顿的第一停顿时间长度，执行本方法的计算机还根据多个第一停顿时间长度生成语音停顿信息。

根据语音停顿信息与语音文本生成语音文本序列，具体包括：建立语音文本时间轴，并根据语音停顿信息将语音文本中的字或词标注在语音文本时间轴上，以得到携带语音停顿信息的语音文本序列，然后将携带语音停顿信息的语音文本序列输入预设的语音合成模型可以合成虚拟的目标语音。

其中，将语音文本序列输入预设的语音合成模型具体为：依照第一停顿时间长度将字或词按照语音文本序列中的顺序输入至语音合成模型，即，语音合成模型输出的目标语音同样携带语音停顿信息，且对应的字或词之间停顿的第二停顿时间长度与语音文本中相邻的字或词之间停顿的第一停顿时间长度相同。

应理解，目标语音中相邻的字或词之间停顿的第二停顿时间长度与目标唇部动作视频中虚拟唇部在根据语音文本序列进行说话时的动作在时间上同步，使目标语音与目标唇部动作视频相互吻合，解决了唇部动作与虚拟语音割裂的问题。

步骤S4、根据唇部动作视频与面部视频生成目标对象的面部融合视频。

根据面部视频生成虚拟面部视频；

应理解的是，虚拟面部视频为对应目标对象面部的虚拟视频，可将面部视频中的视频材质替换为卡通材质或其它材质，需知，虚拟面部视频包含有对应唇部的像素，而对应唇部的像素分区可能会与后续融合的唇部动作视频相互冲突，或是后续融合的唇部动作视频未能完全遮挡虚拟面部视频中包含的对应唇部的像素，从而生成成错误的面部融合视频，因此需对唇部所对应的像素分区进行消除处理。

具体的，根据面部视频生成虚拟面部视频，识别虚拟面部视频中对应唇部的像素分区，并对像素分区进行消除处理以获得初步面部视频，示例性地，可以采样虚拟面部视频中除对应唇部以外的像素分区的面部材质，并基于该面部材质对像素分区进行填充，以消除处理像素分区得到初步面部视频。然后获取像素分区在虚拟面部视频的位置信息，并根据位置信息融合唇部动作视频与初步面部视频得到面部融合视频。

通过首先对唇部所对应的像素分区进行消除处理，再融合唇部动作视频生成面部融合视频，避免了对应唇部的像素分区可能会与后续融合的唇部动作视频相互冲突的问题，或是后续融合的唇部动作视频未能完全遮挡虚拟面部视频中包含的对应唇部的像素的问题，从而提升生成的面部融合视频质量。

步骤S5、根据面部融合视频、背景视频及目标语音合成虚拟形象视频。

在获取面部融合视频后，根据面部融合视频、背景视频及目标语音合成虚拟形象视频。应理解，关键单句与待处理视频关联于同一时间轴，根据面部融合视频、背景视频及目标语音在时间轴上对应的时间节点、以及面部融合视频、背景视频及目标语音在预处理视频画面中的相对位置将面部融合视频、背景视频及目标语音进行合成便可得到唇部动作与目标语音吻合的虚拟形象视频。

综上，本发明提供的虚拟形象视频生成方法可应用于计算机，虚拟形象视频生成方法具体包括：获取待处理视频，并基于目标对象的面部特征在待处理视频中提取预处理视频；在预处理视频中提取目标对象的面部视频、背景视频及语音信息；基于面部视频确定目标对象的唇部特征信息，并根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音；根据唇部动作视频与面部视频生成目标对象的面部融合视频；根据面部融合视频、背景视频及目标语音合成虚拟形象视频，使得虚拟形象视频中的目标对象的唇部动作与虚拟语音吻合，解决了现有虚拟形象视频生成方法中唇部动作与虚拟语音割裂的问题，并且，通过结合静态的唇形特征信息、唇色特征信息以及动态的唇部运动特征信息确定目标唇部动作模型，使得虚拟形象视频能较好地还原目标对象唇部的实际动作。

图5为本申请实施例提供的一种虚拟形象视频生成装置的模块结构示意图，如图5所示，虚拟形象视频生成装置600包括：

预处理模块601，用于获取待处理视频，并基于目标对象的面部特征在待处理视频中提取预处理视频；

目标提取模块602，用于在预处理视频中提取目标对象的面部视频、背景视频及语音信息；

唇部处理模块603，用于基于面部视频确定目标对象的唇部特征信息，并根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音；

面部处理模块604，用于根据唇部动作视频与面部视频生成目标对象的面部融合视频；

视频合成模块605，用于根据面部融合视频、背景视频及目标语音合成虚拟形象视频。

在一些实施方式中，目标提取模块602在预处理视频中提取目标对象的面部视频及背景视频，具体包括：

在预处理视频中提取多个单帧图像；

在一些实施方式中，目标提取模块602对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域，具体包括：

对时间相邻的面部图像帧进行差分处理以获取差分图像帧；

将面部图像帧划分为多个子区域；

在一些实施方式中，唇部处理模块603基于面部视频确定目标对象的唇部特征信息，具体包括：

在面部视频中提取多个面部图像帧；

根据唇部连通域在面部图像帧中提取唇部图像；

在一些实施方式中，唇部处理模块603对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域，具体包括：

对时间相邻的面部图像帧进行差分处理以获取差分图像帧；

将面部图像帧划分为多个子区域；

在一些实施方式中，唇部处理模块603根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音，具体包括：

将语音信息转换为对应的语音文本；

根据语音信息生成语音文本对应的语音停顿信息；

根据语音停顿信息与语音文本生成语音文本序列；

在一些实施方式中，面部处理模块604根据唇部动作视频与面部视频生成目标对象的面部融合视频，具体包括：

根据面部视频生成虚拟面部视频；

请参阅图6，图6为本申请实施例提供的一种计算机设备的结构示意性框图。

如图6所示，计算机设备700包括处理器701和存储器702，处理器701和存储器702通过总线703连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器701用于提供计算和控制能力，支撑整个计算机设备的运行。处理器701可以是中央处理单元(Central Processing Unit，CPU)，该处理器701还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器702可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请实施例提供的任意一种的虚拟形象视频生成方法。

在一些实施方式中，处理器701用于运行存储在存储器702中的计算机程序，并在执行计算机程序时实现如下步骤：

在一些实施方式中，处理器701在预处理视频中提取目标对象的面部视频及背景视频时，包括：

在预处理视频中提取多个单帧图像；

在一些实施方式中，处理器701在基于面部视频确定目标对象的唇部特征信息时，包括：

在面部视频中提取多个面部图像帧；

根据唇部连通域在面部图像帧中提取唇部图像；

在一些实施方式中，处理器701在对多个面部图像帧进行差分处理以获取面部图像帧中对应目标对象唇部的唇部连通域时，包括：

对时间相邻的面部图像帧进行差分处理以获取差分图像帧；

将面部图像帧划分为多个子区域；

在一些实施方式中，处理器701在根据语音信息与唇部特征信息生成唇部动作视频以及与唇部动作视频对应的目标语音时，包括：

将语音信息转换为对应的语音文本；

在一些实施方式中，处理器701在根据语音信息及语音文本生成对应目标唇部动作视频的目标语音时，包括：

根据语音信息生成语音文本对应的语音停顿信息；

根据语音停顿信息与语音文本生成语音文本序列；

在一些实施方式中，处理器701在根据唇部动作视频与面部视频生成目标对象的面部融合视频时，包括：

根据面部视频生成虚拟面部视频；

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述虚拟形象视频生成方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序可被一个或者多个处理器执行，以实现如本申请实施例说明书提供的任一项虚拟形象视频生成方法的步骤。

其中，所述存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本申请的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种虚拟形象视频生成方法，其特征在于，所述方法包括：

获取待处理视频，并基于目标对象的面部特征在所述待处理视频中提取预处理视频；

在所述预处理视频中提取所述目标对象的面部视频、背景视频及语音信息；

基于所述面部视频确定所述目标对象的唇部特征信息，并根据所述语音信息与所述唇部特征信息生成唇部动作视频以及与所述唇部动作视频对应的目标语音；

根据所述唇部动作视频与所述面部视频生成所述目标对象的面部融合视频；

根据所述面部融合视频、所述背景视频及所述目标语音合成虚拟形象视频。

2.根据权利要求1所述的方法，其特征在于，所述在所述预处理视频中提取所述目标对象的面部视频及背景视频，包括：

在所述预处理视频中提取多个单帧图像；

对所述单帧图像进行语义分割处理获得至少一个与所述目标对象的面部对应的面部连通域；

根据多个所述单帧图像中的所述面部连通域生成对应所述目标对象的动态面部掩模模型；

基于所述动态面部掩模模型，在所述预处理视频中提取所述面部视频及所述背景视频。

3.根据权利要求1所述的方法，其特征在于，所述基于所述面部视频确定所述目标对象的唇部特征信息，包括：

在所述面部视频中提取多个面部图像帧；

对多个所述面部图像帧进行差分处理以获取所述面部图像帧中对应所述目标对象唇部的唇部连通域；

根据所述唇部连通域在所述面部图像帧中提取唇部图像；

将所述唇部图像输入预设的特征提取模型以提取所述目标对象的所述唇部特征信息，其中，所述唇部特征信息包括唇形特征信息、唇色特征信息以及唇部运动特征信息中的至少一种。

4.根据权利要求3所述的方法，其特征在于，所述对多个所述面部图像帧进行差分处理以获取所述面部图像帧中对应所述目标对象唇部的唇部连通域，包括：

对时间相邻的所述面部图像帧进行差分处理以获取差分图像帧；

将所述面部图像帧划分为多个子区域；

根据所述差分图像帧确定所述面部图像帧中多个所述子区域的平均差分值；

根据所述平均差分值将位置相邻的所述子区域进行合并以获取至少一个待定连通域，并在所述待定连通域中确定所述唇部连通域。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述语音信息与所述唇部特征信息生成唇部动作视频以及与所述唇部动作视频对应的目标语音，包括：

将所述语音信息转换为对应的语音文本；

根据所述唇部特征信息从若干个预设的候选唇部动作模型中确定目标唇部动作模型；

根据所述目标唇部动作模型、所述语音信息及所述语音文本生成目标唇部动作视频；

根据所述语音信息及所述语音文本生成对应所述目标唇部动作视频的所述目标语音。

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音信息及所述语音文本生成对应所述目标唇部动作视频的所述目标语音，包括：

根据所述语音信息生成所述语音文本对应的语音停顿信息；

根据所述语音停顿信息与所述语音文本生成语音文本序列；

将所述语音文本序列输入预设的语音合成模型以合成获取目标语音。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述唇部动作视频与所述面部视频生成所述目标对象的面部融合视频，包括：

根据所述面部视频生成虚拟面部视频；

识别所述虚拟面部视频中对应唇部的像素分区，并对所述像素分区进行消除处理以获得初步面部视频；

获取所述像素分区在所述虚拟面部视频的位置信息，并根据所述位置信息融合所述唇部动作视频与所述初步面部视频得到所述面部融合视频。

8.一种虚拟形象视频生成装置，其特征在于，包括：

预处理模块，用于获取待处理视频，并基于目标对象的面部特征在所述待处理视频中提取预处理视频；

目标提取模块，用于在所述预处理视频中提取所述目标对象的面部视频、背景视频及语音信息；

唇部处理模块，用于基于所述面部视频确定所述目标对象的唇部特征信息，并根据所述语音信息与所述唇部特征信息生成唇部动作视频以及与所述唇部动作视频对应的目标语音；

面部处理模块，用于根据所述唇部动作视频与所述面部视频生成所述目标对象的面部融合视频；

视频合成模块，用于根据所述面部融合视频、所述背景视频及所述目标语音合成虚拟形象视频。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的虚拟形象视频生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的虚拟形象视频生成方法。