CN114627211A

CN114627211A - 视频名片生成方法、装置、计算机设备和存储介质

Info

Publication number: CN114627211A
Application number: CN202210225834.7A
Authority: CN
Inventors: 邹泽宇
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-14

Abstract

本申请涉及人工智能领域，通过根据风格模式对初始图像进行风格转换，根据风格转换后的目标图像以及模板视频、介绍音频进行视频生成，并对生成的说话人视频进行布局重构，实现自动生成视频名片，提高了生成视频名片的效率。涉及一种视频名片生成方法、装置、计算机设备和存储介质，该方法包括：确定待处理的初始图像对应的风格模式；根据风格模式对初始图像进行风格转换，获得初始图像对应的目标图像；根据目标图像与预设的模板视频以及介绍音频进行视频生成，获得目标图像对应的说话人视频；对说话人视频进行布局重构，获得目标图像对应的视频名片。此外，本申请还涉及区块链技术，目标图像可存储于区块链中。

Description

视频名片生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能，尤其涉及一种视频名片生成方法、装置、计算机设备和存储介质。

背景技术

在很多业务推广场景中，用户需要使用视频名片，以提高自身在客户中的知名度与专业性。在现有技术中，用户在制作视频名片时，需要用户手动录制相关的自我介绍视频，并在自我介绍视频中添加人像以及个人信息，操作繁琐，降低了生成视频名片的效率。并且，由于没有较好的录制视频条件，导致用户需要多次录制视频，同样会降低生成视频名片的效率。

因此，如何提高生成视频名片的效率成为亟需解决的问题。

发明内容

本申请提供了一种视频名片生成方法、装置、计算机设备和存储介质，通过根据风格模式对初始图像进行风格转换，根据风格转换后的目标图像以及模板视频、介绍音频进行视频生成，并对生成的说话人视频进行布局重构，实现自动生成视频名片，提高了生成视频名片的效率。

第一方面，本申请提供了一种视频名片生成方法，所述方法包括：

确定待处理的初始图像对应的风格模式；

根据所述风格模式对所述初始图像进行风格转换，获得所述初始图像对应的目标图像；

根据所述目标图像与预设的模板视频以及介绍音频进行视频生成，获得所述目标图像对应的说话人视频；

对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片。

第二方面，本申请还提供了一种视频名片生成装置，所述装置包括：

风格模式确定模块，用于确定待处理的初始图像对应的风格模式；

风格转换模块，用于根据所述风格模式对所述初始图像进行风格转换，获得所述初始图像对应的目标图像；

视频生成模块，用于根据所述目标图像与预设的模板视频以及介绍音频进行视频生成，获得所述目标图像对应的说话人视频；

布局重构模块，用于对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的视频名片生成方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的视频名片生成方法。

本申请公开了一种视频名片生成方法、装置、计算机设备和存储介质，通过确定待处理的初始图像对应的风格模式，并根据风格模式对初始图像进行风格转换，可以实现根据用户的爱好或应用场景生成不同风格模式的目标图像，后续可以生成不同风格模式的视频名片；通过根据目标图像与预设的模板视频以及介绍音频进行视频生成，可以便捷地生成具有动作与语言功能的说话人视频，不仅简化了说话人视频的生成操作，而且还可以得到更加生动、真实的说话人视频；通过对说话人视频进行布局重构，获得目标图像对应的视频名片，可以实现自动生成视频名片，提高了生成视频名片的效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频名片生成方法的示意性流程图；

图2是本申请实施例提供的一种生成说话人视频的示意图；

图3是本申请实施例提供的一种生成头部动作视频的子步骤的示意性流程图；

图4是本申请实施例提供的一种唇形合成的子步骤的示意性流程图；

图5是本申请实施例提供的一种生成预测图像序列的示意图；

图6是本申请实施例提供的一种确定损失函数值的示意图；

图7是本申请实施例提供的一种视频名片生成装置的示意性框图；

图8是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种视频名片生成方法、装置、计算机设备和存储介质。其中，该视频名片生成方法可以应用于服务器或终端中，通过根据风格模式对初始图像进行风格转换，根据风格转换后的目标图像以及模板视频、介绍音频进行视频生成，并对生成的说话人视频进行布局重构，可以实现自动生成视频名片，提高了生成视频名片的效率。

其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，视频名片生成方法包括步骤S10至步骤S40。

步骤S10、确定待处理的初始图像对应的风格模式。

需要说明的是，本申请实施例可以应用于视频名片生成系统中，用户可以将待生成视频名片的初始图像上传至视频名片生成系统，由视频名片生成系统根据风格模式对初始图像进行风格转换，根据风格转换后的目标图像以及模板视频、介绍音频进行视频生成，并对生成的说话人视频进行布局重构，可以实现自动生成视频名片，提高了生成视频名片的效率。

示例性的，在获取待处理的初始图像时，可以将用户上传的图像，确定为待处理的初始图像；还可以根据用户的图像选中操作，将本地数据库或本地磁盘存储的图像，确定为待处理的初始图像。其中，初始图像可以是包括人脸的图像。

示例性的，在获得待处理的初始图像后，需要确定初始图像对应的风格模式。其中，风格模式可以包括但不限于真人风格模式、卡通风格模式、白描风格模式以及原图风格模式等等。需要说明的是，真人风格模式是指扣除背景后的图像；卡通风格模式是指将图像转换成卡通风格的图像；白描风格模式是指将图像转换成白描风格的图像；原图风格模式是指保留图像中的人脸区域。

在一些实施例中，获取待处理的初始图像之后，还可以包括：对初始图像进行人脸检测，确定初始图像中的人脸区域以及人脸区域对应的人脸位置坐标。

示例性的，可以根据人脸检测算法对初始图像进行人脸检测，确定初始图像中的人脸区域以及人脸区域对应的人脸位置坐标。当未检测到人脸区域时，停止后续的操作。其中，人脸检测算法可以包括但不限于基于直方图粗分割和奇异值特征的人脸检测算法、基于二进小波变换的人脸检测算法、基于AdaBoost算法的人脸检测算法以及基于面部双眼结构特征的人脸检测算法等等。

需要说明的是，通过对初始图像进行人脸检测，可以确定初始图像是否存在人脸。

通过确定待处理的初始图像对应的风格模式，可以实现根据用户的爱好或应用场景，个性化地生成不同风格模式的目标图像。

步骤S20、根据所述风格模式对所述初始图像进行风格转换，获得所述初始图像对应的目标图像。

在本申请实施例中，可以根据风格模式对初始图像进行风格转换，获得初始图像对应的目标图像。需要说明的是，通过风格模式对初始图像进行风格转换，可以获得不同风格模式的目标图像，后续可以根据目标图像生成不同风格模式的视频名片。

例如，当风格模式为真人风格模式时，可以将去除背景图像的分割图像，确定为目标图像。

又例如，当风格模式为卡通风格模式时，可以将风格模式输入卡通风格迁移模型进行卡通风格转换，获得对应的目标图像。其中，通风格迁移模型可以是AgileGAN模型。需要说明的是，AgileGAN模型是一种对图像进行风格化的模型；例如，将图像输入AgileGAN模型，可以输出卡通、漫画以及油画三种形式的图像。

又例如，当风格模式为白描风格模式时，可以将风格模式输入白描风格迁移模型进行白描风格转换，获得对应的目标图像。其中，白描风格迁移模型可以是U-GAT-IT模型，当然也可以是其它的风格迁移模型。需要说明的是，U-GAT-IT模型是一种无监督的图像到图像转换模型，其具有新的注意模块和新的归一化函数AdaLIN。

为进一步保证上述目标图像的私密和安全性，上述目标图像可以存储于一区块链的节点中。

步骤S30、根据所述目标图像与预设的模板视频以及介绍音频进行视频生成，获得所述目标图像对应的说话人视频。

在本申请实施例中，通过根据目标图像与预设的模板视频以及介绍音频进行视频生成，可以便捷地生成具有动作与语言功能的说话人视频，不仅简化了说话人视频的生成操作，而且还可以得到更加生动、真实的说话人视频。

需要说明的是，模板视频是指包括动作或姿态的视频，作为生成说话人视频的驱动视频。介绍音频是用户提前录制的自我介绍音频，还可以是业务讲解音频以及课程讲解音频等等。

请参阅图2，图2是本申请实施例提供的一种生成说话人视频的示意图。如图2所示，将模板视频与目标图像输入动作驱动模型进行动作驱动，获得目标图像对应的头部动作视频；将介绍音频与头部动作视频输入嘴型同步模型进行唇形合成，获得说话人视频。

在本申请实施例中，动作驱动模型可以是First Order Motion Model模型。需要说明的是，First Order Motion Model模型用于根据输入的源图像和驱动视频，生成一段目标视频，其中，目标视频中的主角是源图像，目标视频中的动作是驱动视频中的动作。First Order Motion Model模型包括关键点检测器(keyporint detector)、运动估计器(motion estimation module)和图像生成器(image generation module)。其中，关键点检测器用于检测图像中的关键点以及每个关键点对应的jaccobian矩阵；运动估计器用于基于前面的结果生成最终的映射关系图(transform map)以及遮挡图(occulation map)；图像生成器用于根据transform map和occulation map对编码后的源图像做变换和mask处理，再解码生成出最终的结果。

请参阅图3，图3是本申请实施例提供的一种生成头部动作视频的子步骤的示意性流程图，具体可以包括以下步骤S201至步骤S204。

步骤S201、将所述模板视频与所述目标图像输入所述关键点检测器进行处理，获得所述目标图像对应的第一关键点信息、所述模板视频对应的第二关键点信息。

示例性的，可以将模板视频与目标图像输入关键点检测器中，由关键点检测器输出目标图像对应的第一关键点信息、目标视频对应的第二关键点信息。其中，第一关键点信息表示参考帧到目标图像的映射关系，第二关键点信息表示参考帧到模板视频的映射关系。

可以理解的是，为了便于获得模板视频与目标图像之间的映射关系，可以引进一个参考帧，使得能够独立估计参考帧到目标图像的映射关系以及参考帧到模板视频的映射关系。

示例性的，参考帧可以表示为R；第一关键点信息可以表示为T_S←R；第二关键点信息可以表示为T_D←R。

步骤S202、确定所述第一关键点信息与所述第二关键点信息对应的仿射变换矩阵。

示例性的，在确定第一关键点信息与第二关键点信息对应的仿射变换矩阵时，可以对第一关键点信息进行求导，获得第一关键点信息对应的第一导数，以及对第二关键点信息进行求导，获得第二关键点信息对应的第二导数；然后，由第一导数与第二导数的比值，生成仿射变换矩阵。其中，第一导数可以表示为

第二导数可以表示为

由第一导数与第二导数的比值，生成仿射变换矩阵，生成的仿射变换矩阵可以表示为

其中，p_k是参考帧R上的关键点位置。

步骤S203、将所述目标图像、所述第一关键点信息、所述第二关键点信息以及所述仿射变换矩阵输入所述运动估计器进行运动估计处理，获得对应的映射关系图以及遮挡图。

示例性的，可以将目标图像、第一关键点信息、第二关键点信息以及仿射变换矩阵输入运动估计器进行运动估计处理，由运动估计器输出映射关系图以及遮挡图。其中，具体的运动估计处理过程，在此不作限定。

示例性的，映射关系图可以表示为T_S←D；遮挡图(occlusion mask)可以表示为O_S←D。其中，映射关系图T_S←D由下式得到：

T_S←D(z)≈T_S←R(p_k)+J_k(z-T_D←R(p_k))

式中，z表示目标图像中的关键点。

需要说明的是，映射关系图表示模板视频中的关键点到目标图像中的关键点的映射关系。遮挡图表示在最终生成的图像中，哪些部分可以通过模板视频扭曲得到，哪些部分可以通过图像修复得到。

步骤S204、将所述映射关系图、所述遮挡图以及所述目标图像输入所述图像生成器进行图像生成，获得所述头部动作视频。

在本申请实施例中，图像生成器可以包括编码器与解码器。在一些实施例中，将映射关系图、遮挡图以及目标图像输入图像生成器进行图像生成，获得头部动作视频，可以包括：通过编码器对目标图像进行特征编码，获得中间特征向量；根据映射关系图对中间特征向量进行仿射变换，获得仿射变换后的中间特征向量；将仿射变换后的中间特征向量与遮挡图进行点乘，获得特征向量图；通过解码器对特征向量图进行图像重建，获得头部动作视频。

示例性的，可以通过编码器encoder将目标图像进行特征编码，得到对应的中间特征向量；然后，根据映射关系图对中间特征向量进行仿射变换，获得仿射变换后的中间特征向量，并将仿射变换后的中间特征向量与遮挡图进行点乘，获得特征向量图；最后，通过解码器decoder对特征向量图进行图像重建，获得头部动作视频。

需要说明的是，通过根据映射关系图对中间特征向量进行仿射变换，获得仿射变换后的中间特征向量，可以实现将模板视频中的关键点到目标图像中的关键点的映射关系加载到特征向量图中，进而可以实现将模板视频中的动作迁移至头部动作视频中。通过将仿射变换后的中间特征向量与遮挡图进行点乘，获得特征向量图，可以通过特征向量图确定图像重建时需要修复的关键点。

通过将模板视频与目标图像输入动作驱动模型进行动作驱动，可以方便、快捷地得到目标图像对应的头部动作视频，无需用户手动构建三维模型，提升了生成头部动作视频的效率。

示例性的，嘴型同步模型可以是wal2lip模型，wav2lip是一个基于GAN的唇形动作迁移算法模型。其中，wal2lip模型可以包括第一编码器、第二编码器、解码器、图像质量判别器、音频视频同步器、光流特征提取器。需要说明的是，图像质量判别器、音频视频同步器以及光流特征提取器用于嘴型同步模型的训练过程中，使得目标函数最小化。

请参阅图4，图4是本申请实施例提供的一种唇形合成的子步骤的示意性流程图，具体可以包括以下步骤S205至步骤S207。

步骤S205、将所述介绍音频输入所述第一编码器进行特征提取，获得第一特征向量，以及将所述头部动作视频输入所述第二编码器进行特征提取，获得第二特征向量。

步骤S206、将所述第一特征向量与所述第二特征向量进行拼接，获得拼接特征向量。

步骤S207、将所述拼接特征向量输入所述解码器进行解码，并将解码获得的图像序列，确定为所述说话人视频。

通过将介绍音频与头部动作视频输入嘴型同步模型进行唇形合成，不仅简化了说话人视频的生成操作，而且还可以得到更加生动、真实的说话人视频。

在本申请实施例中，可以预先对嘴型同步模型进行训练，得到训练好的嘴型同步模型；然后，将介绍音频与头部动作视频输入训练好的嘴型同步模型进行唇形合成，获得说话人视频。

在一些实施方式中，嘴型同步模型的训练过程为：获取样本视频，对样本视频进行视频抽取，获得样本视频对应的第一子样本视频以及第二子样本视频；根据第一子样本视频中的音频信息与第二子样本视频的图像信息确定每一轮的训练数据，将当前轮训练数据输入嘴型同步模型进行预测训练，获得当前轮训练数据对应的预测图像序列；将预测图像序列输入图像质量判别器进行图像质量判别，获得预测图像序列对应的图像质量判别的第一子损失函数值；将预测图像序列与第一子样本视频中的音频信息输入音频视频同步器进行同步对比，获得预测图像序列对应的同步对比的第二子损失函数值；将第一子样本视频的图像信息与预测图像序列输入光流特征提取器进行光流特征提取，获得预测图像序列对应的光流特征信息差异的第三子损失函数值；基于预设的权重比值公式，根据第一子损失函数值、第二子损失函数值以及第三子损失函数值，确定预测图像序列对应的损失函数值；若损失函数值大于预设的损失值阈值，则调整嘴型同步模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于损失值阈值，结束训练，得到训练好的嘴型同步模型。

需要说明的是，第一子样本视频、第二子样本视频包括音频信息与图像信息。

请参阅图5，图5是本申请实施例提供的一种生成预测图像序列的示意图。如图5所示，将第一子样本视频中的音频信息输入第一编码器进行特征提取，获得第一特征向量，以及将第二子样本视频中的图像信息输入第二编码器进行特征提取，获得第二特征向量；然后，将第一特征向量与第二特征向量进行拼接，获得拼接特征向量；最后，将拼接特征向量输入解码器进行解码，获得预测图像序列。

请参阅图6，图6是本申请实施例提供的一种确定损失函数值的示意图。如图6所示，将预测图像序列输入图像质量判别器进行图像质量判别，获得预测图像序列对应的图像质量判别的第一子损失函数值；将预测图像序列与第一子样本视频中的音频信息输入音频视频同步器进行同步对比，获得预测图像序列对应的同步对比的第二子损失函数值；将第一子样本视频中的图像信息与预测图像序列输入光流特征提取器进行光流特征提取，获得预测图像序列对应的光流特征信息差异的第三子损失函数值。然后，基于预设的权重比值公式，根据第一子损失函数值、第二子损失函数值以及第三子损失函数值，确定预测图像序列对应的损失函数值。

示例性的，第一子损失函数值可以表示为a；第二子损失函数值可以表示为b；第三子损失函数值可以表示为c。权重比值公式可以如下所示：

J＝λ₁a+λ₂b+λ₃c

其中，J表示损失函数值，λ₁表示第一子损失函数值a的权重系数，λ₂表示第二子损失函数值b的权重系数；λ₃表示第三子损失函数值c的权重系数。λ₁、λ₂和λ₃的值可以根据实际情况调整，具体数值在此不作限定。

示例性的，可以采用梯度下降算法，调整嘴型同步模型的参数。此外，还可以通过牛顿算法、共轭梯度法或柯西-牛顿法等收敛算法，调整嘴型同步模型的参数。

通过根据图像质量判别器、音频视频同步器以及光流特征提取器计算损失函数值，可以提高训练好的嘴型同步模型的生成图像的质量、唇形与音频的同步率以及视频的平衡性。

步骤S40、对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片。

在本申请实施例中，布局重构可以包括视频布局重构，还可以包括文字布局重构。通过对说话人视频进行布局重构，获得目标图像对应的视频名片，可以实现自动生成视频名片，提高了生成视频名片的效率。

在一些实施例中，对说话人视频进行布局重构，获得目标图像对应的视频名片之前，还可以包括：根据图像分割算法对初始图像进行人像分割，获得对应的分割图像，并确定分割图像中的人像对应的人像位置坐标。

示例性的，图像分割算法可以包括但不限于基于阈值的分割算法、基于边缘的分割算法、基于区域的分割算法以及基于图论的分割算法等等。需要说明的是，图像分割算法用于分割出初始图像中的前景与背景。

示例性的，可以将分割图像中的前景的位置坐标，确定为人像位置坐标。

通过对初始图像进行人像分割并确定人像位置坐标，用于后续计算人像在背景模板画框中的区域，以保证人脸能够完整出现在背景模板画框中。

在一些实施例中，对说话人视频进行布局重构，获得目标图像对应的视频名片，可以包括：基于人像位置坐标，确定预设的背景模板画框中的人像区域；基于人像区域的尺寸大小，对说话人视频进行尺寸调整，获得尺寸调整后的说话人视频；将尺寸调整后的说话人视频添加至背景模板画框中的人像区域，获得视频名片。

示例性的，可以将说话人视频的尺寸调整为与人像区域的尺寸匹配。例如，若人像区域的尺寸为5cm*6cm，则可以将说话人视频的尺寸调整为5cm*6cm。

需要说明的是，通过基于人像区域的尺寸大小，对说话人视频进行尺寸调整，并将尺寸调整后的说话人视频添加至背景模板画框中的人像区域，可以确保人脸能够完整出现在背景模板画框中，并且确保说话人视频不能超出背景模板画框。

通过对说话人视频进行视频布局重构，可以方便、快捷地实现对说话人视频进行设置，降低了用户制作视频名片的难度。

在一些实施例中，将尺寸调整后的说话人视频添加至背景模板画框中的人像区域，获得视频名片之后，还可以包括：获取预设的文字信息，并确定文字信息对应的起始位置与文字颜色；基于文字颜色与起始位置，将文字信息添加至视频名片中。

示例性的，预设的文字信息可以用户预先设定的文字，例如用户的姓名、工作职位、联系电话等等。

示例性的，可以根据检测到用户在视频名片中的位置选中操作，确定文字信息对应的起始位置。可以根据背景模板画框中的背景颜色，确定文字信息的文字颜色；也可以根据用户的文字颜色选中操作，确定文字信息的文字颜色。

在一些实施方式中，根据背景模板画框中的背景颜色，确定文字信息的文字颜色，可以包括：基于预设的背景颜色与文字颜色之间的对应关系，根据背景模板画框的背景颜色，确定文字信息对应的文字颜色。

示例性的，可以根据聚类算法，对多个背景模板画框中的背景颜色进行聚类，获得每个背景模板画框对应的背景颜色类别；确定每个背景模板画框对应的文字颜色，并将每个背景模板画框对应的文字颜色与背景颜色类别进行关联。其中，聚类算法可以是K-means算法，当然，也可以是其它的聚类算法，在此不作限定。

通过对说话人视频进行文字布局重构，不仅可以使得视频名片的内容更加丰富多样，提高了视频名片的质量，而且还可以降低了用户制作视频名片的难度。

在一些实施例中，对说话人视频进行布局重构，获得目标图像对应的视频名片之后，还可以包括：获取预设的二维码信息，将二维码信息添加视频名片。其中，二维码信息可以是二维码图形。需要说明的是，二维码图形可以包含用户的身份信息，例如包含识别用户的姓名、联系方式，还可以通过扫描二维码图形添加好友等等。

通过将二维码信息添加视频名片，可以使得视频名片的内容更加丰富多样，提高了视频名片的质量。

上述实施例提供的视频名片生成方法，通过确定待处理的初始图像对应的风格模式，可以实现根据用户的爱好或应用场景，个性化地生成不同风格模式的目标图像；通过将模板视频与目标图像输入动作驱动模型进行动作驱动，可以方便、快捷地得到目标图像对应的头部动作视频，无需用户手动构建三维模型，提升了生成头部动作视频的效率；通过将介绍音频与头部动作视频输入嘴型同步模型进行唇形合成，不仅简化了说话人视频的生成操作，而且还可以得到更加生动、真实的说话人视频；通过根据图像质量判别器、音频视频同步器以及光流特征提取器计算损失函数值，可以提高训练好的嘴型同步模型的生成图像的质量、唇形与音频的同步率以及视频的平衡性；通过对说话人视频进行视频布局重构，可以方便、快捷地实现对说话人视频进行设置，降低了用户制作视频名片的难度；通过对说话人视频进行文字布局重构，不仅可以使得视频名片的内容更加丰富多样，提高了视频名片的质量，而且还可以降低了用户制作视频名片的难度。

请参阅图7，图7是本申请的实施例还提供一种视频名片生成装置1000的示意性框图，该视频名片生成装置用于执行前述的视频名片生成方法。其中，该视频名片生成装置可以配置于服务器或终端中。

如图7所示，该视频名片生成装置1000，包括：风格模式确定模块1001、风格转换模块1002、视频生成模块1003和布局重构模块1004。

风格模式确定模块1001，用于确定待处理的初始图像对应的风格模式。

风格转换模块1002，用于根据所述风格模式对所述初始图像进行风格转换，获得所述初始图像对应的目标图像。

视频生成模块1003，用于根据所述目标图像与预设的模板视频以及介绍音频进行视频生成，获得所述目标图像对应的说话人视频。

布局重构模块1004，用于对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的结构示意性框图。

请参阅图8，该计算机设备包括通过系统总线连接的处理器和存储器，其中，存储器可以包括存储介质和内存储器。所述存储介质可以是非易失性存储介质，也可以是易失性存储介质。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种视频名片生成方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

确定待处理的初始图像对应的风格模式；根据所述风格模式对所述初始图像进行风格转换，获得所述初始图像对应的目标图像；根据所述目标图像与预设的模板视频以及介绍音频进行视频生成，获得所述目标图像对应的说话人视频；对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片。

在一个实施例中，所述处理器在实现根据所述目标图像与预设的模板视频以及介绍音频进行视频生成，获得所述目标图像对应的说话人视频时，用于实现：

将所述模板视频与所述目标图像输入动作驱动模型进行动作驱动，获得所述目标图像对应的头部动作视频；将所述介绍音频与所述头部动作视频输入嘴型同步模型进行唇形合成，获得所述说话人视频。

在一个实施例中，所述动作驱动模型包括关键点检测器、运动估计器以及图像生成器；所述处理器在实现将所述模板视频与所述目标图像输入动作驱动模型进行动作驱动，获得所述目标图像对应的头部动作视频时，用于实现：

将所述模板视频与所述目标图像输入所述关键点检测器进行处理，获得所述目标图像对应的第一关键点信息、所述模板视频对应的第二关键点信息；确定所述第一关键点信息与所述第二关键点信息对应的仿射变换矩阵；将所述目标图像、所述第一关键点信息、所述第二关键点信息以及所述仿射变换矩阵输入所述运动估计器进行运动估计处理，获得对应的映射关系图以及遮挡图；将所述映射关系图、所述遮挡图以及所述目标图像输入所述图像生成器进行图像生成，获得所述头部动作视频。

在一个实施例中，所述图像生成器包括编码器与解码器；所述处理器在实现将所述映射关系图、所述遮挡图以及所述目标图像输入图像生成器进行图像生成，获得所述头部动作视频时，用于实现：

通过所述编码器对所述目标图像进行特征编码，获得中间特征向量；根据所述映射关系图对所述中间特征向量进行仿射变换，获得仿射变换后的中间特征向量；将仿射变换后的中间特征向量与所述遮挡图进行点乘，获得特征向量图；通过所述解码器对所述特征向量图进行图像重建，获得所述头部动作视频。

在一个实施例中，所述嘴型同步模型包括第一编码器、第二编码器以及解码器；所述处理器在实现将所述介绍音频与所述头部动作视频输入嘴型同步模型进行唇形合成，获得所述说话人视频时，用于实现：

将所述介绍音频输入所述第一编码器进行特征提取，获得第一特征向量，以及将所述头部动作视频输入所述第二编码器进行特征提取，获得第二特征向量；将所述第一特征向量与所述第二特征向量进行拼接，获得拼接特征向量；将所述拼接特征向量输入所述解码器进行解码，并将解码获得的图像序列，确定为所述说话人视频。

在一个实施例中，所述处理器在实现对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片之前，还用于实现：

根据图像分割算法对所述初始图像进行人像分割，获得对应的分割图像，并确定所述分割图像中的人像对应的人像位置坐标。

在一个实施例中，所述处理器在实现对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片时，用于实现：

基于所述人像位置坐标，确定预设的背景模板画框中的人像区域；基于所述人像区域的尺寸大小，对所述说话人视频进行尺寸调整，获得尺寸调整后的说话人视频；将尺寸调整后的说话人视频添加至所述背景模板画框中的人像区域，获得所述视频名片。

在一个实施例中，所述处理器在实现将尺寸调整后的说话人视频添加至所述背景模板画框中的人像区域，获得所述视频名片之后，还用于实现：

获取预设的文字信息，并确定所述文字信息对应的起始位置与文字颜色；基于所述文字颜色与所述起始位置，将所述文字信息添加至所述视频名片中。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项视频名片生成方法。

例如，该程序被处理器加载，可以执行如下步骤：

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字卡(Secure Digital Card，SD Card)，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频名片生成方法，其特征在于，包括：

确定待处理的初始图像对应的风格模式；

2.根据权利要求1所述的视频名片生成方法，其特征在于，所述根据所述目标图像与预设的模板视频以及介绍音频进行视频生成，获得所述目标图像对应的说话人视频，包括：

将所述模板视频与所述目标图像输入动作驱动模型进行动作驱动，获得所述目标图像对应的头部动作视频；

将所述介绍音频与所述头部动作视频输入嘴型同步模型进行唇形合成，获得所述说话人视频。

3.根据权利要求2所述的视频名片生成方法，其特征在于，所述动作驱动模型包括关键点检测器、运动估计器以及图像生成器；

所述将所述模板视频与所述目标图像输入动作驱动模型进行动作驱动，获得所述目标图像对应的头部动作视频，包括：

将所述模板视频与所述目标图像输入所述关键点检测器进行处理，获得所述目标图像对应的第一关键点信息、所述模板视频对应的第二关键点信息；

确定所述第一关键点信息与所述第二关键点信息对应的仿射变换矩阵；

将所述目标图像、所述第一关键点信息、所述第二关键点信息以及所述仿射变换矩阵输入所述运动估计器进行运动估计处理，获得对应的映射关系图以及遮挡图；

将所述映射关系图、所述遮挡图以及所述目标图像输入所述图像生成器进行图像生成，获得所述头部动作视频。

4.根据权利要求3所述的视频名片生成方法，其特征在于，所述图像生成器包括编码器与解码器；所述将所述映射关系图、所述遮挡图以及所述目标图像输入图像生成器进行图像生成，获得所述头部动作视频，包括：

通过所述编码器对所述目标图像进行特征编码，获得中间特征向量；

根据所述映射关系图对所述中间特征向量进行仿射变换，获得仿射变换后的中间特征向量；

将仿射变换后的中间特征向量与所述遮挡图进行点乘，获得特征向量图；

通过所述解码器对所述特征向量图进行图像重建，获得所述头部动作视频。

5.根据权利要求2所述的视频名片生成方法，其特征在于，所述嘴型同步模型包括第一编码器、第二编码器以及解码器；

所述将所述介绍音频与所述头部动作视频输入嘴型同步模型进行唇形合成，获得所述说话人视频，包括：

将所述介绍音频输入所述第一编码器进行特征提取，获得第一特征向量，以及将所述头部动作视频输入所述第二编码器进行特征提取，获得第二特征向量；

将所述第一特征向量与所述第二特征向量进行拼接，获得拼接特征向量；

将所述拼接特征向量输入所述解码器进行解码，并将解码获得的图像序列，确定为所述说话人视频。

6.根据权利要求1所述的视频名片生成方法，其特征在于，所述对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片之前，还包括：

根据图像分割算法对所述初始图像进行人像分割，获得对应的分割图像，并确定所述分割图像中的人像对应的人像位置坐标；

所述对所述说话人视频进行布局重构，获得所述目标图像对应的视频名片，包括：

基于所述人像位置坐标，确定预设的背景模板画框中的人像区域；

基于所述人像区域的尺寸大小，对所述说话人视频进行尺寸调整，获得尺寸调整后的说话人视频；

将尺寸调整后的说话人视频添加至所述背景模板画框中的人像区域，获得所述视频名片。

7.根据权利要求6所述的视频名片生成方法，其特征在于，所述将尺寸调整后的说话人视频添加至所述背景模板画框中的人像区域，获得所述视频名片之后，还包括：

获取预设的文字信息，并确定所述文字信息对应的起始位置与文字颜色；

基于所述文字颜色与所述起始位置，将所述文字信息添加至所述视频名片中。

8.一种视频名片生成装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7任一项所述的视频名片生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7任一项所述的视频名片生成方法。