CN112580577A

CN112580577A - 一种基于面部关键点生成说话人图像的训练方法及装置

Info

Publication number: CN112580577A
Application number: CN202011577259.4A
Authority: CN
Inventors: 张旭; 殷昊; 杨喜鹏; 江明奇; 陈云琳
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Go Out And Ask Suzhou Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-30
Anticipated expiration: 2040-12-28
Also published as: CN112580577B

Abstract

本发明公开了一种基于面部关键点生成说话人图像的训练方法及训练装置，本发明实施例首先将原始图像和合成图像共同作为当前帧样本，得到样本序列，其中，所述原始图像是由当前帧面部关键点序列连接形成的图像，所述合成图像是利用生成器对上一帧样本进行处理而生成的图像；并针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；之后判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；最后根据调整结果，生成图像合成模型。由此，通过时序建模，能够实现图像合成模型合成的画面具有连续性，从而解决了现有技术中由于画面时序性差导致视频出现抖动的问题。

Description

一种基于面部关键点生成说话人图像的训练方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于面部关键点生成说话人图像的训练方法及装置。

背景技术

基于面部关键点序列生成视频的方法是指将面部图片获取的关键点信息输入模型生成相应说话人视频的技术。对于合成的说话人视频，通常要求在视觉上说话内容要与说话姿态保持一致，目前主流的方法主要关注说话时面部姿态，对身体姿态和人物表情姿态等方向工作做的比较少。

现有的一些基于图像生成视频的方法，由于缺少时序信息建模，直接将现有的图像合成方法应用于生成视频，通常会导致输出的视频在时间上不相干，从而导致视频在时序上存在抖动现象，视觉质量较低。

发明内容

本发明实施例提供一种基于面部关键点生成说话人图像的训练方法及训练装置，能够建立有效的图像合成模型，从而使得图像合成模型合成的画面具有连续性，提高了合成图像的效果，解决了现有技术中图像画面时序性差的问题。

根据本发明实施例第一方面，提供一种基于面部关键点生成说话人图像的训练方法，该方法包括：将原始图像和合成图像共同作为当前帧样本，得到样本序列；其中，所述原始图像是由当前帧面部关键点序列连接形成的图像，所述合成图像是利用生成器对上一帧样本进行处理而生成的图像；针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；根据调整结果，生成图像合成模型。

根据本发明一实施方式，对所述当前帧样本进行时序特征提取，生成特征向量，包括：对所述当前帧样本进行特征下采样处理，得到特征下采样图像；对所述特征下采样图像进行多尺度空间特征融合，生成特征融合图像；对所述特征融合图像进行多尺度时序特征提取，生成特征向量。

根据本发明一实施方式，一个所述合成图像对应一帧样本，一帧样本对应一个所述特征向量；所述基于判断结果对所述生成器参数进行调整，包括：若所述判断结果表征所述特征向量满足预设条件，则确定所述特征向量对应的合成图像与真实图像不相同；对所述生成器参数进行调整。

根据本发明一实施方式，所述根据调整结果，生成图像合成模型，包括：根据调整结果，判断下一帧样本对应的特征向量是否满足预设条件，若否，则确定该特征向量对应的合成图像与真实图像相同，生成图像合成模型。

根据本发明一实施方式，所述合成图像通过如下方法获得：对上一帧样本进行特征下采样处理，得特征下采样图像；利用所述生成器对所述特征下采样图像进行处理，生成合成图像。

根据本发明一实施方式，所述利用所述生成器对所述特征下采样图像进行处理，生成合成图像，包括：将所述特征下采样图像进行多尺度空间特征融合，得到特征融合图像；对所述特征融合图像进行上采样处理，生成预合成图像；对所述预合成图像施加特征权重，生成合成图像。

根据本发明一实施方式，所述训练方法包括：获取多帧原始面部关键点序列；对每帧所述原始面部关键点序列进行扩展处理，得到多帧候补面部关键点序列，生成候补面部关键点集合；将多帧所述原始面部关键点序列和多个所述候补面部关键点集合确定为面部关键点序列的数据库；从所述数据库中获取任一帧面部关键点序列作为当前帧面部关键点序列。

根据本发明实施例第二方面，还提供一种基于面部关键点的训练装置，该装置包括：样本模块，用于将原始图像和合成图像共同作为当前帧样本，得到样本序列；其中，所述原始图像是由当前帧面部关键点序列连接形成的图像，所述合成图像是利用模型对上一帧样本进行处理而生成的图像；调整模块，用于针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；生成模块，用于根据调整结果，生成图像合成模型。

根据本发明一实施方式，所述调整模块包括：下采样单元，用于对所述当前帧样本进行特征下采样处理，得到特征下采样图像；特征融合单元，用于对所述特征下采样图像进行多尺度空间特征融合，生成特征融合图像；时序特征单元，用于对所述特征融合图像进行多尺度时序特征提取，生成特征向量。

根据本发明一实施方式，一个所述合成图像对应一帧样本，一帧样本对应一个所述特征向量；所述调整模块还包括：确定单元，用于若所述判断结果表征所述特征向量满足预设条件，则确定所述特征向量对应的合成图像与真实图像不相同；调整单元，用于对所述生成器参数进行调整。

根据本发明实施例第三方面，还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行如第一方面所述基于面部关键点生成说话人图像的训练方法。

本发明实施例基于面部关键点生成说话人图像的训练方法及训练装置，首先将原始图像和合成图像共同作为当前帧样本，得到样本序列；并针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；之后判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；最后根据调整结果，生成图像合成模型。由此，通过时序建模，能够建立有效的图像合成模型，使得图像合成模型合成的画面具有连续性，解决了现有技术中由于图像画面时序性差导致的视频出现抖动的问题。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明一实施例基于面部关键点生成说话人图像的训练方法的流程示意图；

图2示出了本发明另一实施例基于面部关键点生成说话人图像的训练方法的流程示意图；

图3示出了本发明一实施例基于面部关键点生成说话人图像的训练装置的结构示意图；

图4示出了本发明实施例中整个面部对应的面部关键点序列的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

本发明实施例通过基于辨别器对样本序列的处理结果，调整生成器的参数，生成图像合成模型。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

如图1所示，本发明一实施例基于面部关键点生成说话人图像的训练方法的流程示意图。

一种基于面部关键点生成说话人图像的训练方法，该方法至少包括如下操作流程：S101，将原始图像和合成图像共同作为当前帧样本，得到样本序列；其中，原始图像是由当前帧面部关键点序列连接形成的图像，合成图像是利用生成器对上一帧样本进行处理而生成的图像；S102，针对样本序列中任一当前帧样本：对当前帧样本进行时序特征提取，生成特征向量；判断特征向量是否满足预设条件，基于判断结果对生成器参数进行调整；S103，根据调整结果，生成图像合成模型。

在S101中，原始图像是由当前输入的面部关键点连接后形成的二维图像。也就是，原始图像和当前输入的面部关键点是对应的。所述合成图像通过如下方法获得：对上一帧样本进行特征下采样处理，得特征下采样图像；利用所述生成器对所述特征下采样图像进行处理，生成合成图像。上一帧样本包括上一帧面部关键点序列连接形成的二维图像，以及上一帧合成图像。例如当前帧样本对应样本序列中的第三帧样本，第三帧样本是由第三帧面部关键点，以及第二帧样本通过生成器生成的合成图像共同构成的。

具体地，所述合成图像通过如下方法获得：对上一帧样本进行特征下采样处理，得特征下采样图像；利用所述生成器对所述特征下采样图像进行处理，生成合成图像。例如，生成器通过如下方法生成合成图像：将所述特征下采样图像进行多尺度空间特征融合，得到特征融合图像；对所述特征融合图像进行上采样处理，生成预合成图像；对所述预合成图像施加特征权重，生成合成图像。由此，通过将生成器输出的合成图像与当前面部关键点序列形成的二维图像作为辨别器的输入，从而能够实现利用辨别器训练生成器，进而得到图像合成模型。

所述当前帧面部关键点序列通过如下方法获得：获取多帧原始面部关键点序列；对每帧所述原始面部关键点序列进行扩展处理，得到多帧候补面部关键点序列，生成候补面部关键点集合；将多帧所述原始面部关键点序列和多个所述候补面部关键点集合确定为面部关键点序列的数据库；从所述数据库中获取任一帧面部关键点序列作为当前帧面部关键点序列。扩展处理是指对原始面部关键点序列做随机裁剪，平移，遮挡等操作。由此，通过对原始关键点序列晶扩展处理，能够有效增加训练的数据量，提高了训练效果，减少了数据采集的成本。

需要说明的是，输入合成器的第一帧样本只有第一帧面部关键点序列，合成器对第一帧面部关键点序列处理后生成合成图像；将该合成图像和第二帧面部关键点序列共同作为第二帧样本，输入辨别器和合成器。

在S102中，对所述当前帧样本进行特征下采样处理，得到特征下采样图像；对所述特征下采样图像进行多尺度空间特征融合，生成特征融合图像；对所述特征融合图像进行多尺度时序特征提取，生成特征向量。判断所述特征向量是否满足预设条件，若所述判断结果表征所述特征向量满足预设条件，则确定所述特征向量对应的合成图像与真实图像不相同；对所述生成器参数进行调整。

例如，对当前帧样本进行特征下采样处理，生成一组分辨率不同的特征下采样图像。特征下采样处理，用于指示对当前帧样本进行特征提取后进行下采样操作。下采样操作，用于指示将当前帧样本生成一组分辨率不同的图像。之后将一组分辨率不同的特征下采样图像进行多尺度空间特征融合处理，生成特征融合图像。最后基于前几帧样本的融合图像对当前帧样本对应的融合图像进行多尺度时序特征提取，生成特征向量。根据特征向量获取与特征向量对应的准特征向量，准特征向量用于指示与融合图像对应的真实图像。判断特征向量是否与准向量相同，若特征向量与准向量不相同，则说明特征向量满足预设条件；从而进一步说明特征向量对应的合成图像与真实图像不相同；基于这样的判断结果对生成器参数进行调整。

在S103中，基于当前帧样本生成的判断结果调整生成器的参数，并将当前帧样本输入调整后的生成器中生成合成图，将生成的合成图像和下一帧面部关键点序列对应的图像共同作为下一帧样本；并判断下一帧样本对应的特征向量是否满足预设条件，若下一帧样本对应的特征向量不满足预设条件，则确定下一帧对应的合成图像与真实图像相同，结束生成器参数的调整，生成图像合成模型。

其中S102是在辨别器中实现的。除了第一帧样本以外，其他帧样本中的合成图像均是在多次调整参数后的生成器中合成的。

本发明实施例通过对样本进行特征下采样处理，并对下采样图像进行多尺度空间特征融合，从而能够增加特征语义信息，进而使得图像生成模型输出高分辨率以及具有真实感的合成图像。通过对特征融合图像进行时序特征提取，确保图像生成模型不仅关注当前帧样本的内容，还关注合成图像画面的连续性，进而解决了现有技术中模型输出画面时序性差的问题。

本发明实施例对特征下采样处理、多尺度空间特征融合以及多尺度时序特征融合的具体算法不做限定，只要能够解决本申请的技术问题即可。

应理解，在本发明的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图2所示，本发明另一实施例基于面部关键点生成说话人图像的训练方法的流程示意图。本实施例是在前述实施例的基础上进一步优化得到的。一种基于面部关键点生成说话人图像的训练方法，该方法是利用实施例1生成的图像合成模型对待处理样本进行测试。具体包括如下操作流程：S201，对当前帧样本进行特征下采样处理，得特征下采样图像；当前帧样本是由原始图像和合成图像共同组成的，其中，原始图像是由当前帧面部关键点序列连接形成的图像，合成图像是利用图像生成器对上一帧样本进行处理而生成的图像；S202，利用图像合成模型对特征下采样图像进行模型处理，生成合成图像。

模型处理过程通过如下方法实现，具体包括：将特征下采样图像进行多尺度空间特征融合，得到特征融合图像；对特征融合图像进行上采样处理，生成预合成图像；对预合成图像施加特征权重，生成合成图像。

另外，在训练图像合成模型时，还采用了局部面部关键点序列进行了模型训练，由此能够对局部细节部位进行特征约束，有效改善面部细节清晰度。

如图4所示，本发明实施例中整个面部对应的第一关键点序列的示意图。

评判本发明实施例的方法指标为用户平均意见分(Mean Opinion Score，缩写MOS),通过对比已有方法和本实施例的方法生成的说话人视频进行用户评分，可以发现本实施例的方法在数据量更少的情况下，合成的说话人视频更加逼真，说话内容与嘴形更加匹配，MOS也高于原系统。

如图3所示，本发明一实施例基于面部关键点生成说话人图像的训练装置的结构示意图。一种基于面部关键点生成说话人图像的训练装置，该装置300包括：样本模块301，用于将原始图像和合成图像共同作为当前帧样本，得到样本序列；其中，所述原始图像是由当前帧面部关键点序列连接形成的图像，所述合成图像是利用模型对上一帧样本进行处理而生成的图像；调整模块302，用于针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；生成模块303，用于根据调整结果，生成图像合成模型。

在可选的实施例中，所述调整模块包括：下采样单元，用于对所述当前帧样本进行特征下采样处理，得到特征下采样图像；特征融合单元，用于对所述特征下采样图像进行多尺度空间特征融合，生成特征融合图像；时序特征单元，用于对所述特征融合图像进行多尺度时序特征提取，生成特征向量。

在可选的实施例中，一个所述合成图像对应一帧样本，一帧样本对应一个所述特征向量；所述调整模块还包括：确定单元，用于若所述判断结果表征所述特征向量满足预设条件，则确定所述特征向量对应的合成图像与真实图像不相同；调整单元，用于对所述生成器参数进行调整。

在可选的实施例中，所述生成模块包括：判断单元，用于根据调整结果，判断下一帧样本对应的特征向量是否满足预设条件；生成单元，用于若否，则确定该特征向量对应的合成图像与真实图像相同，生成图像合成模型。

在可选的实施例中，所述合成图像通过如下方法获得：对上一帧样本进行特征下采样处理，得特征下采样图像；将所述特征下采样图像进行多尺度空间特征融合，得到特征融合图像；对所述特征融合图像进行上采样处理，生成预合成图像；对所述预合成图像施加特征权重，生成合成图像。

在可选的实施例中，所述训练装置还包括：获取模块，用于获取多帧原始面部关键点序列；扩展处理模块，用于对每帧所述原始面部关键点序列进行扩展处理，得到多帧候补面部关键点序列，生成候补面部关键点集合；第一确定模块，用于将多帧所述原始面部关键点序列和多个所述候补面部关键点集合确定为面部关键点序列的数据库；第二确定模块，用于从所述数据库中获取任一帧面部关键点序列作为当前帧面部关键点序列。

这里需要指出的是：以上基于面部关键点生成说话人图像的训练装置实施例的描述，与前述图1所示的方法实施例的描述是类似的，具有同前述图1所示的方法实施例相似的有益效果，因此不做赘述。对于本发明基于面部关键点生成说话人图像的训练装置中未披露的技术细节，请参照本发明前述图1所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于运算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个运算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该运算机软件产品存储在一个存储介质中，包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于面部关键点生成说话人图像的训练方法，其特征在于，包括：

将原始图像和合成图像共同作为当前帧样本，得到样本序列；其中，所述原始图像是由当前帧面部关键点序列连接形成的图像，所述合成图像是利用生成器对上一帧样本进行处理而生成的图像；

针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；

根据调整结果，生成图像合成模型。

2.根据权利要求1所述的训练方法，其特征在于，对所述当前帧样本进行时序特征提取，生成特征向量，包括：

对所述当前帧样本进行特征下采样处理，得到特征下采样图像；

对所述特征下采样图像进行多尺度空间特征融合，生成特征融合图像；

对所述特征融合图像进行多尺度时序特征提取，生成特征向量。

3.根据权利要求1所述的训练方法，其特征在于，一个所述合成图像对应一帧样本，一帧样本对应一个所述特征向量；所述基于判断结果对所述生成器参数进行调整，包括：

若所述判断结果表征所述特征向量满足预设条件，则确定所述特征向量对应的合成图像与真实图像不相同；

对所述生成器参数进行调整。

4.根据权利要求1所述的训练方法，其特征在于，所述根据调整结果，生成图像合成模型，包括：

根据调整结果，判断下一帧样本对应的特征向量是否满足预设条件，若否，则确定该特征向量对应的合成图像与真实图像相同，生成图像合成模型。

5.根据权利要求1所述的训练方法，其特征在于，所述合成图像通过如下方法获得：

对上一帧样本进行特征下采样处理，得特征下采样图像；

利用所述生成器对所述特征下采样图像进行处理，生成合成图像。

6.根据权利要求5所述的训练方法，其特征在于，所述利用所述生成器对所述特征下采样图像进行处理，生成合成图像，包括：

将所述特征下采样图像进行多尺度空间特征融合，得到特征融合图像；对所述特征融合图像进行上采样处理，生成预合成图像；对所述预合成图像施加特征权重，生成合成图像。

7.根据权利要求1所述的训练方法，特征在于，还包括：

获取多帧原始面部关键点序列；

对每帧所述原始面部关键点序列进行扩展处理，得到多帧候补面部关键点序列，生成候补面部关键点集合；

将多帧所述原始面部关键点序列和多个所述候补面部关键点集合确定为面部关键点序列的数据库；

从所述数据库中获取任一帧面部关键点序列作为当前帧面部关键点序列。

8.一种基于面部关键点生成说话人图像的训练装置，其特征在于，包括：

样本模块，用于将原始图像和合成图像共同作为当前帧样本，得到样本序列；其中，所述原始图像是由当前帧面部关键点序列连接形成的图像，所述合成图像是利用模型对上一帧样本进行处理而生成的图像；

调整模块，用于针对所述样本序列中任一当前帧样本：对所述当前帧样本进行时序特征提取，生成特征向量；判断所述特征向量是否满足预设条件，基于判断结果对所述生成器参数进行调整；

生成模块，用于根据调整结果，生成图像合成模型。

9.根据权利要求8所述的训练装置，其特征在于，所述调整模块包括：

下采样单元，用于对所述当前帧样本进行特征下采样处理，得到特征下采样图像；

特征融合单元，用于对所述特征下采样图像进行多尺度空间特征融合，生成特征融合图像；

时序特征单元，用于对所述特征融合图像进行多尺度时序特征提取，生成特征向量。

10.根据权利要求8所述的训练装置，其特征在于，一个所述合成图像对应一帧样本，一帧样本对应一个所述特征向量；所述调整模块还包括：

确定单元，用于若所述判断结果表征所述特征向量满足预设条件，则确定所述特征向量对应的合成图像与真实图像不相同；

调整单元，用于对所述生成器参数进行调整。