CN116385669B

CN116385669B - 虚拟人视频创作方法、装置和电子设备

Info

Publication number: CN116385669B
Application number: CN202310661065.XA
Authority: CN
Inventors: 任逍航; 王宝元
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-10-24
Anticipated expiration: 2043-06-06
Also published as: CN116385669A

Abstract

本发明提供一种虚拟人视频创作方法、装置和电子设备，涉及图像处理技术领域。基于人脸信息分离算法分离人物视频和虚拟人形象信息中的人脸信息，得到人物面部结构信息、人物非面部信息、虚拟人面部结构信息和虚拟人面部纹理信息。基于面部结构变换算法先对面部结构进行变换，将虚拟人面部结构信息变换至人物视频中，替换人物面部结构信息，实现面部结构变换。基于面部纹理变换算法，对完成面部结构变换的视频注入虚拟人面部纹理信息，实现面部纹理变换。最后再将完成面部纹理变换的视频和非面部信息进行融合，生成虚拟人形象自然的目标虚拟人视频。

Description

虚拟人视频创作方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种虚拟人视频创作方法、装置和电子设备。

背景技术

创作以虚拟人为主体的视频，可以使视频创作者在人物形象上有更高的自由度，而不用受限于真实世界中的形象，也可以让演员突破外在形象限制而扮演某个角色。

但现有技术在创作虚拟人视频时，非常考验中之人（即视频演员）和虚拟人的形象（尤其是面部区域）匹配度，若不匹配时非常容易使视频中的虚拟人形象不自然，大大约束了中之人和虚拟人的可选择性。

现有技术公开号为CN202111063896.4的发明申请，公开了一种换脸方法、装置、设备及存储介质，该方法在一个深度学习模型中，使用属性调制模块以及特征融合模块，将目标图像的身份信息变换为源图像的身份信息。

现有技术申请号为CN202110337402.0的发明申请，公开了一种换脸方法、装置、电子设备和存储介质，该方法在一个深度学习模型中，使用语义融合模块，将从源图像中提取到的统一的身份信息，同时注入到目标图像的脸型、五官等区域中，完成身份信息的变换。

综上，现有技术在进行换脸时采用的方法都是将人脸面部信息糅合在一起，同时注入到目标图像，这样的方法在中之人和虚拟人的形象不匹配时，生成的形象将会不自然。

发明内容

本发明提供一种虚拟人视频创作方法、装置和电子设备，用以解决现有技术中人脸面部信息糅合，导致虚拟人视频中的虚拟人形象不自然的缺陷，实现将人脸面部信息分解为结构和纹理两个维度，基于结构和纹理两个维度的信息生成形象自然的虚拟人视频。

本发明提供一种虚拟人视频创作方法，包括：

获取人物视频和虚拟人形象信息；

基于预设的人脸信息分离算法，在所述人物视频中确定人物非面部信息和人物面部结构信息，在所述虚拟人形象信息中确定虚拟人面部结构信息和虚拟人面部纹理信息；

基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频；

基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频；

基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频。

根据本发明提供的一种虚拟人视频创作方法，所述面部结构变换算法包括第一图像信息提取模型和第一图像重建模型；

所述基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频，包括：

将所述人物视频的视频帧输入所述第一图像信息提取模型，得到第一图像高维特征；

将所述人物面部结构信息和所述虚拟人面部结构信息分别输入预设的三维人脸重建模型，得到人物面部结构坐标点集和虚拟人面部结构坐标点集；

根据所述人物面部结构坐标点集和虚拟人面部结构坐标点集，构建面部结构变换矩阵；

根据所述面部结构变换矩阵对所述第一图像高维特征进行变换，得到变换后的第一图像高维特征；

将所述变换后的第一图像高维特征输入所述第一图像重建模型，生成所述第一阶段虚拟人视频。

根据本发明提供的一种虚拟人视频创作方法，所述根据所述人物面部结构坐标点集和虚拟人面部结构坐标点集，构建面部结构变换矩阵，包括：

根据所述人物面部结构坐标点集中的坐标点的坐标和虚拟人面部结构坐标点集中的坐标点的坐标，计算点位移，根据所述点位移得到点集位移；其中，所述人物面部结构坐标点集中的坐标点、所述虚拟人面部结构坐标点集中的坐标点和所述点位移具有一一对应的映射关系；

对于构成所述面部结构变换矩阵的每个待定点，在所述人物面部结构坐标点集中，确定与所述待定点的点位移相近的预设数量的候选点；

在所述待定点与所述预设数量的候选点之间的最短点位移大于预设距离值的情况下，将所述待定点坐标变换为预设坐标；

在所述待定点与所述预设数量的候选点之间的最短点位移不大于所述预设距离值的情况下，根据预设权重系数计算所述预设数量的候选点对应的点位移的加权平均值，将所述待定点坐标变换为所述加权平均值；

根据所述待定点的所述待定点坐标，构建所述面部结构变换矩阵。

根据本发明提供的一种虚拟人视频创作方法，所述第一图像信息提取模型和所述第一图像重建模型通过如下方式协同训练得到：

将预先获取的第一视频帧样本和第二视频帧样本输入所述三维人脸重建模型，得到第一面部结构点集和第二面部结构点集；

根据所述第一面部结构点集和所述第二面部结构点集构建面部变换矩阵样本；

将所述第一视频帧样本输入预设的初始图像信息提取模型，得到第一图像高维特征样本；

根据所述面部变换矩阵样本对所述第一图像高维特征样本进行变换，得到变换后的第一图像高维特征样本；

将所述变换后的第一图像高维特征样本输入预设的初始图像重建模型，得到第一重建视频帧样本；

根据所述第一视频帧样本和所述第一重建视频帧样本，计算第一人脸结构损失、第一人脸表情损失和第一重建损失；其中，所述人脸结构损失表示所述第一视频帧样本和所述第一重建视频帧样本之间在人脸结构维度上的相似程度，所述第一人脸表情损失表示所述第一视频帧样本和所述第一重建视频帧样本之间在人脸表情维度上的相似程度，所述第一重建损失表示所述第一视频帧样本和第一重建视频帧样本之间的相似程度；

根据所述第一人脸结构损失、第一人脸表情损失和第一重建损失，调整所述初始图像信息提取模型和所述初始图像重建模型的参数，并返回重新执行得到第一面部结构点集和第二面部结构点集的步骤；

在所述第一人脸结构损失、第一人脸表情损失和第一重建损失满足预设阈值的情况下，将所述初始图像信息提取模型确定为所述第一图像信息提取模型，将所述初始图像重建模型确定为所述第一图像信息重建模型。

根据本发明提供的一种虚拟人视频创作方法，所述面部纹理变换算法包括第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型；

所述基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频，包括：

将所述第一阶段虚拟人视频的视频帧输入所述第二图像信息提取模型，得到第二图像高维特征；

将所述虚拟人面部纹理信息输入所述面部纹理信息提取模型，得到虚拟人面部纹理编码；

将所述虚拟人面部纹理编码输入所述全连接模型，转换得到不同维度的第一注入信息和第二注入信息；

将所述第一注入信息、所述第二注入信息和所述第二图像高维特征代入预设变换公式，得到变换后的第二图像高维特征；

将所述第二图像高维特征、所述变换后的第二图像高维特征和预设的面部纹理区域参数代入预设注入公式，得到注入后的第二图像高维特征；

将所述注入后的第二图像高维特征输入所述第二图像重建模型，生成所述第二阶段虚拟人视频。

根据本发明提供的一种虚拟人视频创作方法，所述第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型通过如下方式协同训练得到：

将预先获取的第三视频帧样本输入预设的初始图像提取模型，得到第二图像高维特征样本；

对所述第三视频帧样本进行纹理编辑，得到第四视频帧样本；

将所述第四视频帧样本输入预设的初始面部纹理信息提取模型，得到面部纹理编码样本；

将所述面部纹理编码样本输入预设的初始全连接模型，转换得到不同维度的第一注入信息样本和第二注入信息样本；

将所述第一注入信息样本、所述第二注入信息样本和所述第二图像高维特征样本代入预设变换公式，得到变换后的第二图像高维特征样本；

将所述第二图像高维特征样本、所述变换后的第二图像高维特征样本和预设的面部纹理区域参数代入预设注入公式，得到注入后的第二图像高维特征样本；

将所述注入后的第二图像高维特征样本输入预设的初始第二图像重建模型，生成第二重建视频帧样本；

根据所述第三视频帧样本和所述第二重建视频帧样本，计算第二人脸结构损失、第二人脸表情损失和第二重建损失；其中，所述第二人脸结构损失表示所述第三视频帧样本和所述第二重建视频帧样本之间在人脸结构维度上的相似程度，所述第二人脸表情损失表示所述第三视频帧样本和所述第二重建视频帧样本之间在人脸表情维度上的相似程度，所述第二重建损失表示所述第三视频帧样本和第二重建视频帧样本之间的相似程度；

将所述第二重建视频帧样本输入所述初始面部纹理信息提取模型，得到第三重建视频帧样本；

根据所述第二重建视频帧样本和所述第三重建视频帧样本，计算人脸纹理损失；其中，所述人脸纹理损失标识第二重建视频帧样本和所述第三重建视频帧样本在人脸纹理维度上的相似程度；

根据所述第二人脸结构损失、所述第二人脸表情损失、所述第二重建损失和所述人脸纹理损失，调整所述初始第二图像信息提取模型、所述初始第二图像重建模型、所述初始面部纹理信息提取模型和所述初始全连接模型的参数，并返回重新执行得到第二图像高维特征样本的步骤；

在所述第二人脸结构损失、所述第二人脸表情损失、所述第二重建损失和所述人脸纹理损失满足预设阈值的情况下，将所述初始第二图像信息提取模型、所述初始第二图像重建模型、所述初始面部纹理信息提取模型和所述初始全连接模型，分别确定为所述第二图像信息提取模型、所述第二图像重建模型、所述面部纹理信息提取模型和所述全连接模型。

根据本发明提供的一种虚拟人视频创作方法，所述基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频，包括：

将所述第二阶段虚拟人视频的分辨率调整至与所述人物视频的分辨率一致；

根据预设的面部区域参数，在调整后的第二阶段虚拟人视频的第一视频帧中采集面部区域以内的第一画面，其中所述第一视频帧为所述第二阶段虚拟人视频中位于目标时刻的视频帧；

根据所述面部区域参数，在所述人物视频的第二视频帧中采集面部区域以外的第二画面，其中所述第二视频帧为所述人物视频中位于目标时刻的视频帧；

将所述第一画面和所述第二画面进行融合，得到所述目标虚拟人视频中目标时刻的融合视频帧；

根据不同时刻对应的所述融合视频帧合成所述目标虚拟人视频。

本发明还提供一种虚拟人视频创作，包括：

获取单元，用于获取人物视频和虚拟人形象信息；

人脸信息分离单元，用于基于预设的人脸信息分离算法，在所述人物视频中确定人物非面部信息和人物面部结构信息，在所述虚拟人形象信息中确定虚拟人面部结构信息和虚拟人面部纹理信息；

面部结构变换单元，用于基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频；

面部纹理变换单元，用于基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频；

融合单元，用于基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述虚拟人视频创作方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述虚拟人视频创作方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述虚拟人视频创作方法的步骤。

本发明提供的虚拟人视频创作方法、装置和电子设备，基于人脸信息分离算法分离人物视频和虚拟人形象信息中的人脸信息，得到人物面部结构信息、人物非面部信息、虚拟人面部结构信息和虚拟人面部纹理信息。基于面部结构变换算法先对面部结构进行变换，将虚拟人面部结构信息变换至人物视频中，替换人物面部结构信息，实现面部结构变换。基于面部纹理变换算法，对完成面部结构变换的视频注入虚拟人面部纹理信息，实现面部纹理变换。最后再将完成面部纹理变换的视频和非面部信息进行融合，生成虚拟人形象自然的目标虚拟人视频。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的虚拟人视频创作方法的流程示意图；

图2是本发明提供的虚拟人视频创作流程的示意图；

图3是本发明提供的面部结构变换流程的示意图；

图4是本发明提供的面部纹理变换流程的示意图

图5是本发明提供的虚拟人视频创作装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种虚拟人视频创作方法，如图1所示，包括：

S11、获取人物视频和虚拟人形象信息；

S12、基于预设的人脸信息分离算法，在所述人物视频中确定人物非面部信息和人物面部结构信息，在所述虚拟人形象信息中确定虚拟人面部结构信息和虚拟人面部纹理信息；

S13、基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频；

S14、基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频；

S15、基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频。

具体地，人物视频可以为预存的视频也可以为临时接收用户上传的视频。虚拟人形象信息可以为虚拟人的3D模型的建模信息，也可以为虚拟人3D模型的多个视角的图像信息。

非面部结构信息可以包括但不限于发型、背景和肢体动作等信息，面部结构信息可以包括但不限于脸型和五官等信息。

所述人脸信息分离算法可以包括但不限于三维人脸重建算法和二维人脸图像识别算法，三维人脸重建算法可以应用于3D模型的建模信息进行人脸信息分离，二维人脸图像识别算法可以应用于2D图像的图像信息进行人脸信息分离。

一个示例中，虚拟人视频创作流程如图2所示：

将人物视频输入人脸信息分离算法进行人脸信息分离，得到人物非面部信息（发型、背景和肢体动作）和人物面部结构信息（脸型和五官）。将虚拟人形象信息输入人脸信息分离算法进行人脸信息分离，确定虚拟人面部结构信息（脸型和五官）和虚拟人面部纹理信息。将人物面部结构信息、虚拟人面部结构信息和人物视频，输入面部结构变换算法进行面部结构变换，得到第一阶段虚拟人视频。将第一阶段虚拟人视频和虚拟人面部纹理信息，输入面部纹理变换算法进行面部纹理变换，得到第二阶段虚拟人视频。将第二阶段虚拟人视频和人物非面部信息，输入非面部信息融合算法进行融合，得到目标虚拟人视频。

本发明实施例中，基于人脸信息分离算法分离人物视频和虚拟人形象信息中的人脸信息，得到人物面部结构信息、人物非面部信息、虚拟人面部结构信息和虚拟人面部纹理信息。基于面部结构变换算法先对面部结构进行变换，将虚拟人面部结构信息变换至人物视频中，替换人物面部结构信息，实现面部结构变换。基于面部纹理变换算法，对完成面部结构变换的视频注入虚拟人面部纹理信息，实现面部纹理变换。最后再将完成面部纹理变换的视频和非面部信息进行融合，生成虚拟人形象自然的目标虚拟人视频。

步骤S13包括：

S21、将所述人物视频的视频帧输入所述第一图像信息提取模型，得到第一图像高维特征；

S22、将所述人物面部结构信息和所述虚拟人面部结构信息分别输入预设的三维人脸重建模型，得到人物面部结构坐标点集和虚拟人面部结构坐标点集；

S23、根据所述人物面部结构坐标点集和虚拟人面部结构坐标点集，构建面部结构变换矩阵；

S24、根据所述面部结构变换矩阵对所述第一图像高维特征进行变换，得到变换后的第一图像高维特征；

S25、将所述变换后的第一图像高维特征输入所述第一图像重建模型，生成所述第一阶段虚拟人视频。

具体地，一个示例中，面部结构变换流程如图3所示，流程如下：

第一图像信息提取模型可以从人物视频的视频帧中提取到包括多重维度信息叠加的第一图像高维特征，多重维度信息可以包括但不限于人物面部结构信息、人物面部纹理信息和背景信息、肢体动作信息。实现将内容丰富的视频画面转化为便于变换计算的且可以同时表示多重维度信息的特征向量。

通过三维人脸重建模型将人物面部结构信息和虚拟人面部结构信息，转化为3D模型中的坐标点集，人物面部结构坐标点集为表示人物面部信息的坐标点的坐标的集合，虚拟人面部结构坐标点集为表示人物面部纹理信息的坐标点的坐标的集合。

根据人物面部结构坐标点集和虚拟人面部结构坐标点集，构建面部结构变换矩阵，面部结构变换矩阵用于量化表示人物面部结构向虚拟人面部结构进行变换的规则方式。

通过面部结构变换矩阵可以将第一图像高维特征中表示人脸面部结构的信息变换为表示虚拟人面部结构的信息，变换后的第一图像高维特征可以表示虚拟人面部结构信息、人物面部纹理信息和背景信息、肢体动作信息。

第一图像重建模型可以根据变换后的第一图像高维特征，进行图像重建，得到重建的视频帧，重建的视频帧与原本的视频帧相比，人物面部结构将被替换为虚拟人面部结构，由重建的视频帧组成第一阶段虚拟人视频。

本发明实施例中，通过第一图像信息提取模型，提取人物视频的视频帧的第一图像高维特征，便于进行面部结构变换。通过人物面部结构坐标点集和虚拟人面部结构坐标点集，构建面部结构变换矩阵，确定人物面部结构向虚拟人面部结构进行变换的规则方式。通过面部结构变换矩阵，对第一图像高维特征进行变换，改变第一图像高维特征中的人物面部结构为虚拟人面部结构。变换后的第一图像高维特征输入第一图像重建模型生成的第一阶段虚拟人视频，与人物视频相比，实现了人物面部结构的变换，变换为虚拟人面部结构，为最终生成形象自然的虚拟人视频奠定基础。

根据本发明提供的虚拟人视频创作方法，步骤S23包括：

S31、根据所述人物面部结构坐标点集中的坐标点的坐标和虚拟人面部结构坐标点集中的点的坐标，计算点位移，根据所述点位移得到点集位移；其中，所述人物面部结构坐标点集中的点、所述虚拟人面部结构坐标点集中的点和所述点位移具有一一对应的映射关系；

S32、对于构成所述面部结构变换矩阵的每个待定点，在所述人物面部结构坐标点集中，确定与所述待定点距离相近的预设数量的候选点；

S33、在所述待定点与所述预设数量的候选点之间的最短距离大于预设距离值的情况下，将所述待定点坐标变换为预设坐标；

S34、在所述待定点与所述预设数量的候选点之间的最短距离不大于所述预设距离值的情况下，根据预设权重系数计算所述预设数量的候选点对应的点位移的加权平均值，将所述待定点坐标变换为所述加权平均值；

S35、根据所述待定点的所述待定点坐标，确定所述面部结构变换矩阵。

具体地，一个示例中，对于面部结构，用三维空间中的点集表达：V={v1，v2…，vn}，n为点的数量，vi为V中的一个点，vi=(xi, yi, zi)，分别对应了点的三维坐标。根据人物面部结构点集Va和虚拟人面部结构点集Vb，可以根据其点集的不同，构建面部结构变换矩阵M=NxNxNx3（共有NxNxN个点，每个点由三维坐标变换表示），构建变换矩阵的过程就是确定构建变换矩阵中每个待定点的坐标，构建方法如下：

1、计算点集位移T=Va-Vb={va1-vb1，va2-vb2，…,van-vbn}={t1，t2，…，tn}，其中t表示点位移；

2、对于M中每一个待定点，在Va中找到与该待定点的点位移最接近的p个候选点，p为预设值；

3、对于M中的待定点与对应的p个待定点里的最小的点位移t，若t大于th，则M中的待定点的三维坐标变换为(0,0,0)，th为预设值；

4、对于M的待定点与对应的p个待定点里的最小的点位移t，若t不大于th，则M中的待定点的三维坐标变换为最近p个待定点对应的点位移的加权平均。

5、在确定了M中所有待定点对应的三维坐标，即完成面部结构变换矩阵M的构建。

进一步的，在得到面部结构变换矩阵M之后，便使得高维特征（大小为NxNxNxD，表示在空间中NxNxN个点，每个点有D维特征，D为预设值）中对应的每一个点，根据M做对应的变换，得到变换后的第一图像高维特征，输入第一图像重建模型生成第一阶段虚拟人视频。

本发明实施例中，根据人物面部结构坐标点集和虚拟人面部结构坐标点集中的坐标点的坐标，计算点位移，根据点位移得到点集位移，确定人物面部结构坐标点集和虚拟人面部结构坐标点集的位移关系。对于面部结构变换矩阵的每个待定点，在人物面部结构坐标点集确定候选点，根据待定点和候选点之间的最短点位移设定待定点坐标，实现面部结构变换矩阵的构建，便于后续对特征进行准确的面部结构变换。

根据本发明提供的虚拟人视频创作方法，所述第一图像信息提取模型和所述第一图像重建模型通过如下方式协同训练得到：

S41、将预先获取的第一视频帧样本和第二视频帧样本输入所述三维人脸重建模型，得到第一面部结构点集和第二面部结构点集；

S42、根据所述第一面部结构点集和所述第二面部结构点集构建面部变换矩阵样本；

S43、将所述第一视频帧样本输入预设的初始图像信息提取模型，得到第一图像高维特征样本；

S44、根据所述面部变换矩阵样本对所述第一图像高维特征样本进行变换，得到变换后的第一图像高维特征样本；

S45、将所述变换后的第一图像高维特征样本输入预设的初始图像重建模型，得到第一重建视频帧样本；

S46、根据所述第一视频帧样本和所述第一重建视频帧样本，计算第一人脸结构损失、第一人脸表情损失和第一重建损失；其中，所述人脸结构损失表示所述第一视频帧样本和所述第一重建视频帧样本之间在人脸结构维度上的相似程度，所述第一人脸表情损失表示所述第一视频帧样本和所述第一重建视频帧样本之间在人脸表情维度上的相似程度，所述第一重建损失表示所述第一视频帧样本和第一重建视频帧样本之间的相似程度；

S47、根据所述第一人脸结构损失、第一人脸表情损失和第一重建损失，调整所述初始图像信息提取模型和所述初始图像重建模型的参数，并返回重新执行得到第一面部结构点集和第二面部结构点集的步骤；

S48、在所述第一人脸结构损失、第一人脸表情损失和第一重建损失满足预设阈值的情况下，将所述初始图像信息提取模型确定为所述第一图像信息提取模型，将所述初始图像重建模型确定为所述第一图像信息重建模型。

具体地，在面部结构变换算法中，第一图像提取模型E1和第一图像重建模型G1是利用大量视频帧协同训练的，使用了重建loss、人脸结构loss和人脸表情loss。

一个示例中，具体步骤如下：

1、提取一个频帧样本F1输入E1，得到高维特征样本A，同时输入通用的三维人脸重建模型，得到面部结构点集Va。

2、另选一个视频帧样本Fn，输入通用的三维人脸重建模型，得到面部结构点集Vb。

3、基于Va和Vb构建面部变换矩阵样本M，再基于M变换高维特征样本A，得到变换后的高维特征样本A’。

4、使用G1将变换后的高维特征样本A’还原成重建视频帧样本F1’。

5、根据视频帧样本F1和重建视频帧样本F1’根据预设公式计算人脸结构loss、人脸表情loss，来约束F1和F1’间的结构和表情一致性。根据预设公式计算重建loss，约束F1和F1’完全一致。

6、基于得到的loss训练调整E1和G1的参数并重复1至6训练过程，直到loss满足预设值，能够实现稳定的面部结构变换的功能。

可选的，重建loss可以在仅当Fn和F1是对于同一个人物的视频帧时参与训练。

这样可以确保E1提取出的第一图像高维特征可以使用上述面部结构变换矩阵进行结构变换，同时G1可以使用变换后的第一图像高维特征重建出面部结构与虚拟人一致，且真实感强的虚拟人视频帧，从而得到第一阶段虚拟人视频。

本发明实施例中，通过第一人脸结构损失、第一人脸表情损失和第一重建损失来训练和约束第一图像信息提取模型和第一图像重建模型，基于人脸结构、人脸表情和整个人脸重建多个角度，生成虚拟人形象自然的第一阶段虚拟人视频。

根据本发明提供的虚拟人视频创作方法，所述面部纹理变换算法包括第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型；

步骤S14包括：

S51、将所述第一阶段虚拟人视频的视频帧输入所述第二图像信息提取模型，得到第二图像高维特征；

S52、将所述虚拟人面部纹理信息输入所述面部纹理信息提取模型，得到虚拟人面部纹理编码；

S53、将所述虚拟人面部纹理编码输入所述全连接模型，转换得到不同维度的第一注入信息和第二注入信息；

S54、将所述第一注入信息、所述第二注入信息和所述第二图像高维特征代入预设变换公式，得到变换后的第二图像高维特征；

S55、将所述第二图像高维特征、所述变换后的第二图像高维特征和预设的面部纹理区域参数代入预设注入公式，得到注入后的第二图像高维特征；

S56、将所述注入后的第二图像高维特征输入所述第二图像重建模型，生成所述第二阶段虚拟人视频。

具体地，一个示例中，面部纹理变换流程如图4所示，流程如下：

预先根据预设的人脸分割模型对第一阶段虚拟人视频进行区域划分，确定面部纹理区域参数。

第二图像信息提取模型可以从第一阶段虚拟人视频的视频帧中提取到多重维度信息叠加的第二图像高维特征。实现将内容丰富的视频画面转化为便于变换计算的且可以同时表示多重维度信息的特征向量。

通过面部纹理信息提取模型，对虚拟人面部纹理信息进行特征提取（即编码），得到虚拟人面部纹理编码。实现将内容丰富的面部纹理信息转化为便于变换计算的编码。

根据第二图像高维特征、面部纹理区域参数和虚拟人面部纹理编码进行信息注入，包括：

使用一个全连接模型，将虚拟人面部纹理编码Z转换成两个维度的第一注入信息α（大小为NxNxNxD）和第二注入信息β（大小为NxNxNxD），满足α,β=FC1(Z)；

将α点乘第二图像高维特征B（大小为NxNxNxD），再加上β，得到变换的第二图像高维特征B’，满足B’=α•B+β，变换的第二图像高维特征B’用于表示对于第一虚拟人视频的视频帧整个所有的区域进行纹理变换的结果；

将变换的第二图像高维特征B’乘以面部纹理区域参数mask，实现在第一虚拟人视频的视频帧的面部纹理区域进行面部纹理变换，在加上变换前的第二图像高维特征B点乘（1-mask），实现保留第一虚拟人视频的视频帧的面部纹理区域之外的原有的特点，满足B’’=mask•B’+(1-mask)•B，得到纹理注入后的图像高维特征B’’。

根据纹理注入后的第二图像高维特征B’’，通过第二图像重建模型进行图像重建，生成第二阶段虚拟人视频。

本发明实施例中，通过第二图像信息提取模型提取第一阶段虚拟人视频的第二图像高维特征，通过面部纹理信息提取模型提取虚拟人面部纹理信息的特征编码，将得到的虚拟人面部纹理编码输入全连接模型，转换得到不同维度的第一注入信息和第二注入信息，便于进行面部纹理变换。将第一注入信息、第二注入信息和第二图像高维特征代入预设变换公式，得到变换后的第二图像高维特征，实现视频帧的整体面部纹理变换。将第二图像高维特征、变换后的第二图像高维特征和预设的面部纹理区域参数代入预设注入公式，实现对面部纹理区域的纹理注入，得到注入后的第二图像高维特征。将注入后的第二图像高维特征输入第二图像重建模型，生成第二阶段虚拟人视频，与第一阶段虚拟人视频相比，实现了人物面部纹理的变换，变换为虚拟人面部纹理，为最终生成形象自然的虚拟人视频奠定基础。

根据本发明提供的虚拟人视频创作方法，所述第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型通过如下方式协同训练得到：

S601、将预先获取的第三视频帧样本输入预设的初始图像提取模型，得到第二图像高维特征样本；

S602、对所述第三视频帧样本进行纹理编辑，得到第四视频帧样本；

S603、将所述第四视频帧样本输入预设的初始面部纹理信息提取模型，得到面部纹理编码样本；

S604、将所述面部纹理编码样本输入预设的初始全连接模型，转换得到不同维度的第一注入信息样本和第二注入信息样本；

S605、将所述第一注入信息样本、所述第二注入信息样本和所述第二图像高维特征样本代入预设变换公式，得到变换后的第二图像高维特征样本；

S606、将所述第二图像高维特征样本、所述变换后的第二图像高维特征样本和预设的面部纹理区域参数代入预设注入公式，得到注入后的第二图像高维特征样本；

S607、将所述注入后的第二图像高维特征样本输入预设的初始第二图像重建模型，生成第二重建视频帧样本；

S608、根据所述第三视频帧样本和所述第二重建视频帧样本，计算第二人脸结构损失、第二人脸表情损失和第二重建损失；其中，所述第二人脸结构损失表示所述第三视频帧样本和所述第二重建视频帧样本之间在人脸结构维度上的相似程度，所述第二人脸表情损失表示所述第三视频帧样本和所述第二重建视频帧样本之间在人脸表情维度上的相似程度，所述第二重建损失表示所述第三视频帧样本和第二重建视频帧样本之间的相似程度；

S609、将所述第二重建视频帧样本输入所述初始面部纹理信息提取模型，得到第三重建视频帧样本；

S610、根据所述第二重建视频帧样本和所述第三重建视频帧样本，计算人脸纹理损失；其中，所述人脸纹理损失标识第二重建视频帧样本和所述第三重建视频帧样本在人脸纹理维度上的相似程度；

S611、根据所述第二人脸结构损失、所述第二人脸表情损失、所述第二重建损失和所述人脸纹理损失，调整所述初始第二图像信息提取模型、所述初始第二图像重建模型、所述初始面部纹理信息提取模型和所述初始全连接模型的参数，并返回重新执行得到第二图像高维特征样本的步骤；

S612、在所述第二人脸结构损失、所述第二人脸表情损失、所述第二重建损失和所述人脸纹理损失满足预设阈值的情况下，将所述初始第二图像信息提取模型、所述初始第二图像重建模型、所述初始面部纹理信息提取模型和所述初始全连接模型，分别确定为所述第二图像信息提取模型、所述第二图像重建模型、所述面部纹理信息提取模型和所述全连接模型。

具体地，在面部纹理变换算法中，第二图像提取模型E2、面部纹理信息提取模型T1、第二图像重建模型G2、全连接模型FC1是利用大量视频帧加上纹理编辑工具协同训练的，使用了重建loss、人脸结构loss、人脸表情loss和人脸纹理一致loss。

一个示例中，具体步骤如下：

1、提取一个视频帧样本F1输入E2，得到高维特征B。

2、使用一种纹理编辑方法（如光照变化，皮肤美颜等）编辑视频帧样本F1，得到F1’。将F1’输入T1得到面部纹理编码Z。

3、使用FC1将面部纹理编码Z转换成注入信息α和注入信息β。

4、使用α和β，变换高维特征B，得到全区域纹理变换的图像高维特征B’。再使用基于人脸分割模型得到的面部纹理区域参数mask进行面部纹理区域的锁定，得到面部区域纹理注入后的图像高维特征B’’。

5、使用G2将面部纹理注入后的图像高维特征B’’还原成虚拟人视频帧F1x。

6、通过人脸结构loss、人脸表情loss约束F1和F1x间的结构、表情一致性。将F1x再输入T1，得到编码Z’，比较Z和Z’，构建人脸纹理loss来约束两者纹理信息一致。通过重建loss约束F1和F1x完全一致，可选的可以在仅当不进行纹理编辑时使用。

7、基于得到的loss调整E2、T1、G2和FC1的参数并重复1至6训练过程，直到loss满足预设值，能够实现面部纹理变换的功能。

本发明实施例中，通过第二人脸结构损失、第二人脸表情损失、第二重建损失和人脸纹理损失来训练和约束第二图像提取模型、面部纹理信息提取模型、第二图像重建模型和全连接模型。通过第二图像提取模型提取出的第二图像高维特征、面部纹理信息提取模型提取出的面部纹理编码进行纹理变换，同时全连接模型可以提取有效的注入信息，第二图像重建模型可以使用纹理注入后的第二图像高维特征重建出面部纹理与虚拟人一致，且真实感强的第二阶段虚拟人视频帧。

根据本发明提供的虚拟人视频创作方法，步骤S15包括：

S71、将所述第二阶段虚拟人视频的分辨率调整至与所述人物视频的分辨率一致；

S72、根据预设的面部区域参数，在调整后的第二阶段虚拟人视频的第一视频帧中采集面部区域以内的第一画面，其中所述第一视频帧为所述第二阶段虚拟人视频中位于目标时刻的视频帧；

S73、根据所述面部区域参数，在所述人物视频的第二视频帧中采集面部区域以外的第二画面，其中所述第二视频帧为所述人物视频中位于目标时刻的视频帧；

S74、将所述第一画面和所述第二画面进行融合，得到所述目标虚拟人视频中目标时刻的融合视频帧；

S75、根据不同时刻对应的所述融合视频帧合成所述目标虚拟人视频。

具体地，为生成实现形象自然的目标虚拟人视频，需要将同一时刻位于第二阶段虚拟人视频中关于面部区域的画面和人物视频中面部区域以外的画面进行结合。

为准确的实现画面结合，首先需要将第二阶段虚拟人视频的分辨率调整和人物视频的分辨率一致，之后通过“抠图”的思想，采集第二阶段虚拟人物视频中目标时刻的面部区域以内的第一画面，采集人物视频中目标时刻面部区域以外的第二画面，再将第一画面和第二画面进行融合，即可得到目标虚拟人视频中目标时刻的融合视频帧，对第二阶段虚拟人视频和人物视频中的每个时刻进行上述操作，即可得到组成目标虚拟人视频的不同时刻对应的融合视频帧，从而得到目标虚拟人视频。

本发明实施例中，调整第二阶段虚拟人视频的分辨率与人物视频的分辨率一致，方便进行后续抠图采集同一时刻的第一画面和第二画面，第一画面包含了目标虚拟人视频的虚拟人面部区域的信息，第二画面包含了目标虚拟人视频的除虚拟人面部区域的信息，将二者融合即可得到虚拟人形象自然的融合视频帧，根据不同时刻的融合视频帧合成得到虚拟人形象自然的目标虚拟人视频。

下面对本发明提供的虚拟人视频创作装置进行描述，下文描述的虚拟人视频创作装置与上文描述的虚拟人视频创作方法可相互对应参照。

本发明还提供一种虚拟人视频创作装置，如图5所示，包括：

获取单元51，用于获取人物视频和虚拟人形象信息；

人脸信息分离单元52，用于基于预设的人脸信息分离算法，在所述人物视频中确定人物非面部信息和人物面部结构信息，在所述虚拟人形象信息中确定虚拟人面部结构信息和虚拟人面部纹理信息；

面部结构变换单元53，用于基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频；

面部纹理变换单元54，用于基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频；

融合单元55，用于基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频。

根据本发明提供的虚拟人视频创作装置，所述面部结构变换算法包括第一图像信息提取模型和第一图像重建模型；

面部结构变换单元53，具体用于：

根据本发明提供的虚拟人视频创作装置，面部结构变换单元53，具体用于：

根据所述待定点的所述待定点坐标，确定所述面部结构变换矩阵。

根据本发明提供的虚拟人视频创作装置，所述第一图像信息提取模型和所述第一图像重建模型通过如下方式协同训练得到：

根据本发明提供的虚拟人视频创作装置，所述面部纹理变换算法包括第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型；

面部纹理变换单元54，具体用于：

根据本发明提供的虚拟人视频创作装置，所述第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型通过如下方式协同训练得到：

根据本发明提供的虚拟人视频创作装置，融合单元55，具体用于：

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行虚拟人视频创作方法，该方法包括：获取人物视频和虚拟人形象信息；基于预设的人脸信息分离算法，在所述人物视频中确定人物非面部信息和人物面部结构信息，在所述虚拟人形象信息中确定虚拟人面部结构信息和虚拟人面部纹理信息；基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频；基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频；基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的虚拟人视频创作方法，该方法包括：获取人物视频和虚拟人形象信息；基于预设的人脸信息分离算法，在所述人物视频中确定人物非面部信息和人物面部结构信息，在所述虚拟人形象信息中确定虚拟人面部结构信息和虚拟人面部纹理信息；基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频；基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频；基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的虚拟人视频创作方法，该方法包括：获取人物视频和虚拟人形象信息；基于预设的人脸信息分离算法，在所述人物视频中确定人物非面部信息和人物面部结构信息，在所述虚拟人形象信息中确定虚拟人面部结构信息和虚拟人面部纹理信息；基于预设的面部结构变换算法，将所述人物视频中的所述人物面部结构信息变换为所述虚拟人面部结构信息，生成第一阶段虚拟人视频；基于预设的面部纹理变换算法，将所述虚拟人面部纹理信息注入至所述第一阶段虚拟人视频中，生成第二阶段虚拟人视频；基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟人视频创作方法，其特征在于，包括：

获取人物视频和虚拟人形象信息；

基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频；

所述面部纹理变换算法包括第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型；

2.根据权利要求1所述的虚拟人视频创作方法，其特征在于，所述面部结构变换算法包括第一图像信息提取模型和第一图像重建模型；

3.根据权利要求2所述的虚拟人视频创作方法，其特征在于，所述根据所述人物面部结构坐标点集和虚拟人面部结构坐标点集，构建面部结构变换矩阵，包括：

4.根据权利要求2所述的虚拟人视频创作方法，其特征在于，所述第一图像信息提取模型和所述第一图像重建模型通过如下方式协同训练得到：

5.根据权利要求1所述的虚拟人视频创作方法，其特征在于，所述第二图像信息提取模型、第二图像重建模型、面部纹理信息提取模型和全连接模型通过如下方式协同训练得到：

6.根据权利要求1所述的虚拟人视频创作方法，其特征在于，所述基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频，包括：

7.一种虚拟人视频创作装置，其特征在于，包括：

获取单元，用于获取人物视频和虚拟人形象信息；

融合单元，用于基于预设的非面部信息融合算法，将所述人物非面部信息和所述第二阶段虚拟人视频进行非面部信息融合，生成目标虚拟人视频；

面部纹理变换单元，具体用于：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述虚拟人视频创作方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述虚拟人视频创作方法的步骤。