CN115496989A

CN115496989A - 一种生成器、生成器训练方法及避免图像坐标粘连方法

Info

Publication number: CN115496989A
Application number: CN202211438643.5A
Authority: CN
Inventors: 司马华鹏; 张茂林; 王培雨
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2022-12-20
Anticipated expiration: 2042-11-17
Also published as: CN115496989B; US20240169592A1

Abstract

本申请提供一种基于门控网络的生成器、生成器训练方法和避免图像坐标粘连方法。所述生成器通过图像输入层将待处理图像处理为图像序列，并将图像序列输入至特征编码层，由多层特征编码层使用门控卷积网络对图像序列进行编码，得到图像编码。并由多层图像解码层使用逆门控卷积单元对图像编码进行解码处理，得到目标图像序列，最后由图像输出层将目标图像序列进行拼接处理，以得到的目标图像。待处理图像在经过上述门控卷积网络和逆门控卷积网络的处理后，所得到的目标图像中的人物特征更加明显，使所生成数字人的面部图像细节更加生动，解决现有生成器通过生成对抗网络生成的数字人图像出现的图像坐标粘连问题，提高了用户体验。

Description

一种生成器、生成器训练方法及避免图像坐标粘连方法

技术领域

本申请涉及自然人机交互领域，尤其涉及一种生成器、生成器训练方法及避免图像坐标粘连方法。

背景技术

在2D数字人方向，基本都是以生成对抗网络来生成数字人视频，其采用的网络如StyleGAN，CycleGAN等。生成对抗网络由生成器和判别器两部分构成，通过生成器与判别器的对抗训练，以得到理想的模型效果。

但是StyleGAN3网络对生成图片坐标粘连问题进行分析后发现，坐标粘连的问题源自于通用的生成器网络架构所采用的是卷积+非线性+上采样等结构，而这样的结构没有做到很好的等变性。

为了解决上述问题，生成器通常会采用StyleGAN3网络。StyleGAN3网络在StyleGAN2的生成器网络结构做了较大的调整。虽然StyleGAN3已经声称解决了该问题，但在实践中，StyleGAN3的模型过于复杂，且需要大量的人工干预，导致对于自动化要求较高的应用场景，StyleGAN3难以得到运用，无法高效的解决生成对抗网络在生成人脸视频时所出现的坐标粘连的技术问题。

发明内容

为了解决生成对抗网络在生成数字人的人脸视频时出现坐标粘连，导致数字人的面部器官、毛发等细节模糊，降低用户观看时的体验感的问题。

第一方面，本申请的一些实施例提出了一种基于门控网络的生成器，所述生成器包括：图像输入层、特征编码层、特征解码层和图像输出层，其中，

所述图像输入层被配置为将待处理图像处理为图像序列，并将所述图像序列输入至所述特征编码层；所述待处理图像中包括至少一个目标人物；

所述特征编码层被配置为使用门控卷积网络对所述图像序列进行编码处理，得到图像编码；

所述特征解码层被配置为使用逆门控卷积网络对所述图像编码进行解码处理，得到目标图像序列；

所述图像输出层被配置为将所述目标图像序列进行拼接处理，得到目标图像，并输出所述目标图像。

在本申请的一个实施例中，所述门控卷积网络包括特征过滤单元、膨胀卷积单元和归一化层，其中，

所述特征过滤单元被配置为将从所述图像序列中提取的图像特征进行过滤，得到过滤结果；

所述膨胀卷积单元被配置为按照膨胀参数对所述图像特征进行卷积处理，得到膨胀卷积结果；所述膨胀参数为膨胀卷积单元在进行卷积处理时，对每个图像特征对应的数值之间填充的空白数值数量；

所述归一化层被配置为将所述过滤结果与所述膨胀卷积结果的乘积进行归一化处理，得到归一化结果。

在本申请的一个实施例中，所述特征过滤单元包括2D卷积单元和激活函数；

所述2D卷积单元被配置为过滤所述图像特征中的深层次特征；

所述激活函数被配置在所述深层次特征中引入非线性属性，得到所述过滤结果。

在本申请的一个实施例中，所述待处理图像中包括至少一个目标人物执行说话动作；所述生成器还包括第一特征编码区、第二特征编码区和音频输入层，其中，

所述第一特征编码区和第二特征编码区分别包括预设数量的所述特征编码层；

所述音频输入层被配置为提取待处理音频的音频特征序列，并将所述音频特征序列输入至所述第二特征编码区；其中，所述待处理音频为所述待处理图像中目标人物执行所述说话动作的音频；

所述第一特征编码区被配置为使用门控卷积网络对所述图像序列进行预设数量次的编码处理；

所述第二特征编码区被配置为按照时间序列合并所述音频特征序列和经过所述第一特征编码区编码处理后的所述图像序列，得到图音序列；并使用门控卷积网络对所述图音序列进行编码处理，得到样本图音编码。

在本申请的一个实施例中，所述逆门控卷积网络包括：差值采样单元和门控卷积单元；

所述差值采样单元被配置为根据差值方法对所述图像编码中的数组进行上采样操作以及下采样操作，得到采样数据；

所述门控卷积单元被配置为输出所述采样数据。

第二方面，本申请的一些实施例提供了一种生成器的训练方法，用于训练第一方面中任一种基于门控网络的生成器，所述方法包括:

从样本视频中提取样本图像；所述样本视频为预设人物按照预设话术说话的视频；所述样本图像为所述样本视频中至少一帧所对应的图像；

对所述样本图像进行预处理，得到样本图像序列；

将所述样本图像序列输入至未训练的生成器中，使用门控卷积网络进行编码处理，得到样本图像编码；

使用逆门控卷积网络对所述样本图像编码进行解码处理，得到训练图像序列；

对所述训练图像序列进行拼接处理，得到训练图像；

根据损失函数计算所述样本图像与所述训练图像之间的图像偏差，如果所述图像偏差小于偏差阈值，得到训练好的生成器。

在本申请的一个实施例中，所述根据损失函数计算所述样本图像与所述训练图像之间的图像偏差的步骤包括：

获取所述样本图像的预测标签；

获取所述训练图像的实际标签；

计算所述实际标签与所述预测标签的偏差；

根据所述偏差，通过自适应矩估计算法更新所述生成器的参数。

在本申请的一个实施例中，所述方法还包括：

将预设比例数量的样本图像作为测试集；

将所述测试集输入至训练后的生成器中，得到损失函数反馈的损失值；

如果所述损失值大于损失阈值，则对所述生成器进行迭代训练；

如果所述损失值小于损失阈值，得到训练好的生成器。

在本申请的一个实施例中，所述方法还包括：

从所述样本视频中提取样本音频；所述样本音频为所述样本图片中预设人物执行预设话术时对应的音频；

对所述样本音频进行预处理，得到样本音频序列；

将所述样本音频序列与所述样本图像序列进行合并，得到样本图音数据；

使用门控卷积网络对所述样本图音数据进行编码处理，得到所述样本图音编码；

使用逆门控卷积网络对所述样本图音编码进行解码处理，得到训练图音序列；

对所述训练图音序列进行拼接处理，得到训练音像。

第三方面，在本申请的一些实施例中，还提供了一种避免图像坐标粘连方法，应用于通过第二方面的任一种训练方法训练得到的生成器，所述方法包括：

获取待处理图像；所述待处理图像中包括至少一个目标人物；

对所述待处理图像进行预处理，得到图像序列；

使用门控卷积网络对所述图像序列进行编码处理，得到图像编码；

使用逆门控卷积网络对所述图像编码进行解码处理，得到目标图像序列；

将所述目标图像序列进行拼接处理，得到目标图像。

由以上技术方案可知，本申请提供一种基于门控网络的生成器、生成器训练方法和避免图像坐标粘连方法。所述生成器通过图像输入层将待处理图像处理为图像序列，并将图像序列输入至特征编码层，由多层特征编码层使用门控卷积网络对图像序列进行编码，得到图像编码。并由多层图像解码层使用逆门控卷积单元对图像编码进行解码处理，得到目标图像序列，最后由图像输出层将目标图像序列进行拼接处理，以得到的目标图像。待处理图像在经过上述门控卷积网络和逆门控卷积网络的处理后，所得到的目标图像中的人物特征更加明显，使所生成数字人的面部图像细节更加生动，解决现有生成器通过生成对抗网络生成的数字人图像出现的图像坐标粘连问题，提高用户体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于门控卷积网络的生成器的结构图；

图2为本申请实施例提供的门控卷积网络的结构图；

图3为本申请实施例中膨胀卷积单元的感受范围示意图；

图4为本申请另一实施例提供的基于门控卷积网络的生成器；

图5为本申请实施例提供的逆门控卷积网络的结构图；

图6为本申请实施例提供的生成器的训练方法流程图；

图7为本申请实施例提供的避免图像坐标粘连方法流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

数字人是信息科学和生命科学相结合的产物，具体是指通过信息科学技术，对现实人物的体态、面貌和动作进行虚拟仿真，生成可视化的虚拟人物。数字人的本体是通过计算机生成的，并通过显示设备呈现出来，让人类能通过眼睛看见。具备人类的外观和行为模式，数字人具有人类身体的外观形体结构，表现出来的行为模式是与人类相仿的，数字人的影像通常是呈现出某种人类的活动。

数字人分为2D数字人和3D数字人，在2D数字人方向，基本都是以生成对抗网络来生成数字人视频，其采用的网络如StyleGAN，CycleGAN等。生成对抗网络由生成器和判别器两部分构成，通过生成器与判别器的对抗训练，以得到理想的模型效果。

由于通用的生成器网络架构采用的是卷积、非线性、上采样等结构，这样的结构没有很好的等变性。所以上述生成对抗网络在生成对应帧的数字人图像时，会出现图片坐标粘连的问题，就会导致所生成的数字人的面部细节不够生动，尤其体现在数字人的毛发方面。坐标粘连就会使所生成的数字人的毛发粘连，进而导致数字人的胡须、头发、眉毛十分模糊。

为了解决上述生成数字人图像的过程中，由于生成对抗网络在生成数字人的人脸视频时出现坐标粘连，导致数字人的面部器官、毛发等细节模糊，降低用户观看时的体验感的问题，本申请实施例提供了一种基于门控网络的生成器，如图1所示，所述生成器包括图像输入层、特征编码层、特征解码层和图像输出层，其中，由于生成器无法对图片直接进行处理，所以，图像输入层在生成器中被配置为将待处理图像处理程图像序列，并将图像序列输入至图像编码层，使用门控卷积网络进行进一步的编码处理。

在生成器中，所述图像输入层起到将图像序列传输的作用，在一些实施例中，如果待处理图像输入至生成器之前，已经被处理为图像序列，那么图像输入层可以直接将图片序列输入至特征编码层进行编码。

在一些实施例中，待处理图像可以从一段视频中截取，视频中存在大量的帧图像，因此，用户在向生成器输入图像的过程中，可以选择每次只输入单张图像，也可以按批次向生成器输入多张图像，但是图像的数量不能超过生成器能够处理图像的最大数量。

在本实施例中，生成器需要根据图像中的内容生成数字人，所以，待处理图像中包括至少一个目标人物，所述目标人物即为所要生成的数字人对应形象的人物。所述生成器还可以包括对识别图像层，被配置为当待处理图像中存在多个人物时，分别识别每个人物，并根据用户发出的选择指令，选择对应的人物作为生成数字人的目标人物。

在一些实施例中，所述待处理图像中，还可以不存在目标人物，生成器仅用于处理待处理图像中的图像细节，例如风景图像中的树荫、水纹，动物图像的羽毛、毛发等。进一步的，上述目标人物通常指的是数字人，数字人由真实人物进行仿真处理得到，数字人与真实人物的相似度较高，所以，目标人物也可以为现实中的真实人物。

在生成器中，特征编码层被配置为使用门控卷积网络对图像输入层输入的图像序列进行编码处理，得到图像编码。特征编码层会在图像序列提取细节特征，过滤掉不重要的特征，以保留图像序列中的重要特征，解决所生成图像的坐标粘连问题，使数字人图像中的细节能加清晰。

参见图1，在一些实施例中，生成器还可以设置多层特征编码层，以逐层提取图像序列的特征，并使用门控卷积网络对图像序列进行编码。图像序列在被输入到特征编码层后，每经过一层特征编码层，就会在原有序列的基础上，更深层次的提取重要特征。本实施例能够分层次的对图像序列中的人物特征进行优化、细化，以生成更高清，细节更优质的数字人图像。

在一些实施例中，在图像序列在被多层特征编码层处理时，与所述生成器进行对抗的判别器还可以获取经过每层特征编码层处理后的编码图像，并将编码图像与标准数字人图像进行比对，获取判别结果。如果所述判别结果符合要求，那么便说明此时的编码图像已经能够解决坐标粘连的问题，经过编码后即可得到符合清晰度要求的目标图像。此时，生成器可以根据判别结果，跳过剩余的特征编码层，将当前的编码图像对应的图像序列直接输入至特征解码层使用逆门控网络进行解码。

在一些实施例中，如图1所示，所述生成器共有10层特征编码层，其中，每层特征编码层均采用门控卷积网络进行处理，所述门控卷积网络包括特征过滤单元、膨胀卷积单元和归一化层，其中，特征过滤单元能够将图像序列中所提取的图像特征进行过滤，得到过滤结果。在本实施例中，特征过滤单元会先遍历特征编码层在图像序列中所提取到的所有图像特征，上述图像特征是根据所输入的带处理图像中进行提取，包括人物特征和环境特征等。

在遍历到提取的所有图像特征后，特征过滤单元会在保留人物特征的基础上，首先过滤掉提取的环境特征，以提高数字人图像的生成精度。在过滤掉环境特征之后，特征过滤单元还可以继续遍历所保留下来的人物特征，并根据重要级，对人物特征进行筛选和排序。然后根据排序结果，将处于排序末端预设数量的人物特征过滤掉，优先保留重要级较高的人物特征。

如图2所示，所述特征过滤单元还包括2D卷积单元和激活函数。所述2D卷积单元的主要作用就是执行上述实施例中的过滤操作。2D卷积单元就是利用卷积核在图像序列上滑动，将图像序列上的像素值与对应的卷积核上的数值相乘，然后将所有相乘后的值相加作为卷积核中间像素对应的图像上像素的灰度值，并最终滑动完图像序列的过程。

2D卷积过程是一次相乘后相加的结果，例如卷积处理选用3×3的卷积核，那么卷积核内共有九个数值。卷积核内的数值与图像像素值相乘，沿着图片序列以步长为1滑动，每一次滑动都一次相乘再相加的过程，以此提取到图像特征中的深层次特征。

在得到深层次特征之后，还需要通过激活函数在深层次特征中引入非线性属性，达到去线性化的目的，具备上一层的输出能够充当下一层输入的能力，就可以得到最终的输出结果，得到过滤结果。

在本实施例中，激活函数可以使用tanh激活函数、ReLu激活函数或Sigmoid激活函数等。Sigmoid激活函数能够把输入的连续实值变换为0和1之间的输出，特别的，如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1。

门控卷积网络中的膨胀卷积单元被配置为按照膨胀参数对图像特征进行卷积处理，得到膨胀卷积结果。膨胀参数是膨胀卷积单元在对图像特征进行卷积处理时，对每个图像特征对应的数值之间填充的空白数值数量。

参见图3，分别展示了膨胀卷积单元根据三种不同的膨胀参数进行卷积处理的场景。另外，在图3中存在一个参数dilation，其作用是膨胀卷积核，dilation=n的时候，即意味着膨胀卷积核会在膨胀卷积所处理的每个数值之间填充n-1个空白数值，也可以理解为图像特征对应的数值之间的距离值，膨胀参数可以等同于dilation-1。

图3中，膨胀参数从左到右依次为1、2、3。可以明显看出，膨胀参数为1时，图像特征所感受的范围最小，堆积在3×3的膨胀卷积核内。膨胀参数为2时，图像特征所感受的范围大于膨胀参数为1时的感受范围，为5×5的感受范围。膨胀参数为3时，图像特征的感受范围最大，为7×7的感受范围。

需要说明的是，对应于不同的膨胀参数，会对输入的图像特征产生不同的感受范围，进而能够提取深层次特征的范围也有所改变，膨胀参数越大，膨胀卷积核的感受野越大，能够覆盖的图像特征对应的数值的数据范围也就越大。

如图2所示，门控卷积网络中的归一化层被配置为将过滤结果与膨胀卷积结果的乘积进行归一化处理，得到归一化结果。归一化层的主要作用是防止门控卷积网络提取图像特征的过程中出现的梯度消失和梯度爆炸，并防止过拟合的问题，以及在一定程度上，通过归一化的方式，门控卷积单元中图像特征对应的数值转换为均值为0，方差为1的状态，提高训练速度。

进一步的，上述实施例中，还可以在归一化层处添加另一个激活函数，进一步引入非线性属性，去除线性化。

在一些实施例中，还可以图1中的十层特征编码层依次定义为L1-L10。对于不同位置的特征编码层设置不同的膨胀参数进行卷积处理。例如，可以在最后三层特征编码层L8、L9、L10中的膨胀参数分别设置为1、3、7，其他特征编码层的膨胀参数均设置为0，即其他特征编码层使用普通的膨胀卷积核，以此达到不同的编码效果。

生成数字人的结果通常为一段数字人视频，而数字人视频中，除了数字人的人物形象之外，还包括数字人说话的动作以及说话时的音频。在一些实施例中，待处理图像中包括至少一个目标人物执行说话动作。生成器还包括第一特征编码区和第二特征编码区，其中，第一特征编码区只对输入至生成器中的图像序列进行编码处理，第二特征编码区是对输入音频特征序列之后，对音频特征序列以及图像序列共同进行编码处理。

在一些实施例中，所述生成器还包括音频输入层，被配置为从素材视频中提取待处理音频，并将所述待处理音频处理为音频特征序列，然后将音频特征序列输入至第二特征编码区，所述待处理音频为所述待处理图像中目标人物执行所述说话动作的音频。待处理音频还可以是通过具有录音功能的终端设备提前录制好的音频或者通过开启终端设备的音频输入设备实时录制的音频。在本实施例中，生成器还可以根据不同生成对音频格式的适配程度不同，将所输入的待处理音频统一处理格式，以确保音频输入层输入不同格式的音频导致无法适配的情况。

音频特征序列可以在特征编码层中的任意位置输入，包括位于首位的特征编码层或者位于末位的特征编码层。参见图4，图4中音频输入层在L6的特征编码层输入待处理音频，那么L1-L5即为第一特征编码区，L6-L10即为第二特征编码区。所述第一特征编码区和第二特征编码区分别包括预设数量的所述特征编码层，第一特征编码区与第二特征编码区中的特征编码层的数量等于生成器中的特征编码层的总数。

在本实施例中，第一特征编码层被配置为使用门控卷积网络对所述图像序列进行预设数量次的编码处理。上述预设数量即为第一特征编码区中特征编码层的数量，因为待处理音频输入的位置不同，因此，第一特征编码区中特征编码层的数量会根据待处理音频输入的位置产生变化。

由于输入了音频特征序列，为了能够同时处理音频特征序列和图像序列，节省编码处理的时间，在一些实施例中，第二特征编码区被配置为按照时间序列合并音频特征序列和经过第一特征编码区编码处理后的图像序列，得到图音序列。并使用门控卷积网络对所述图音序列进行编码处理，得到样本图音编码。

由于待处理图像中的说话动作是按照时间序列进行，并且目标人物执行说话动作的音频也是按照时间序列进行，所以，在合并图像序列和音频特征序列的过程中，需要严格按照时间序列来进行合并，以防出现说话动作和与说话动作对应的音频出现画音不一致的情况，影响用户体验。

在一些实施例中，还可以将第二特征编码区中的特征编码层的膨胀参数设置为大于其他特征编码层的膨胀参数，并且，越往后置位的特征编码层，膨胀参数应越大。例如，当第二特征编码区为L8-L10，那么在L8，L9，L10三层特征编码层分别设置dilation为2，4，8，其他层dilation均为1，也就是使用普通的膨胀卷积核。在本实施例中，第二特征编码区为L8-L10，即为在L8特征编码层的位置输入了音频特征序列，所以，在L8特征编码层的位置合并成图音序列之后，增加dilation可以大大增加提取图音序列中的特征的感受野，相当于按照时间序列的关系，增加了更多的上下文信息，从而提高了提取数据特征的准确性。

生成器的特征解码层被配置为使用逆门控卷积网络对上述编码过程中得到的图像编码进行解码处理，得到目标图像序列。所述目标图像序列即为解决图像坐标粘连问题的图像序列。图1中，L11-L15即为图像解码层，共设置有5层，每一层中的逆门控卷积网络均包括差值采样单元和门控卷积单元，其中，如图5所示，差值采样单元被配置为根据差值方法对所述图像编码中的数组进行上采样操作以及下采样操作，得到采样数据。门控卷积单元被配置为输出所述采样数据。

以上实施例中的上采样操作和下采样操作需要根据给定的输出大小以及输出与输入之间的倍数关系来进行。目前支持上述上采样操作和下采样操作的输入格式为temporal(1D, 如向量数据), spatial(2D, 如jpg、png等图像数据)和volumetric(3D,如点云数据)，输入数据的格式为minibatch×channels×[optional depth]×[optionalheight]×width等。

目前，可使用的上采样算法有“nearest”,“linear”,“bilinear”,“bicubic”,“trilinear”和“area”，默认使用“nearest”。

在差值采样单元使用差值方法对数组进行上采样操作时，可以不按照比例对齐输出和输入图像编码中的像素，因此输出值可以依赖给定的输入大小。即差值采样单元通过改变数组的尺寸大小，利用线性差值的方式将原有尺寸的数据修改为另一尺寸，例如从1920×1080尺寸通过线性差值的方式修改尺寸到3840×2160，以扩大目标图像序列的分辨率，扩大目标图像序列的数据维度，进而解决图像坐标粘连的问题。

最后，所述图像输出层被配置为将所述目标图像序列进行拼接处理，得到目标图像，并输出所述目标图像。在图1中，所得到的目标图片与还未输入生成器的待处理图片相比，细节更加清楚，并且解决了图像坐标粘连的问题。

在实际应用中，上述模型要想达到在上述应用的技术效果，需要对模型进行特定的训练过程，为此，上述实施例中提供的基于门控网络的生成器还可以通过本实施例提供的一种生成器的训练方法训练得到，如图6所示，所述方法包括：

S100：从样本视频中提取样本图像；所述样本视频为预设人物按照预设话术说话的视频；所述样本图像为所述样本视频中至少一帧所对应的图像。为了能够更好的训练生成器，应准备大量的样本图像。所述样本图像的数量可以根据样本视频的时长决定，样本视频的时长越长，以帧为单位能够提取出的样本图像就越多。

S200：对样本图像进行预处理，得到样本图像序列。

在本实施例中，可以根据即将输入至生成器的样本图片划分批次，例如，将样本图片按照数量平均划分为第一数量批次、第二数量批次、第三数量批次等。并按照以上数量批次，分批将对应批次的样本图片预处理为样本图像序列。

S300：将样本图像序列输入至未训练的生成器中，使用门控卷积网络进行编码处理，得到样本图像编码。

S400：使用逆门控卷积网络对所述样本图像编码进行解码处理，得到训练图像序列。

S500：对所述训练图像序列进行拼接处理，得到训练图像。

上述步骤S300-S500的有益技术效果与上述生成器对应部分记载的有益效果相同，不再赘述。上述步骤S300-S500是用于参与生成器的训练，具体是通过门控卷积网络对样本图像序列进行编码，使用逆门控卷积网络对样本图像编码进行解码。区别仅在于所针对的对象为样本图片序列，最后输入的为训练图像。

S600：根据损失函数计算所述样本图像与所述训练图像之间的图像偏差，如果图像偏差小于偏差阈值，得到训练好的生成器。

在上述实施例中，如果根据损失函数计算的图像偏差大于偏差阈值时，说明训练图像与样本图像相比，人物细节不够清晰，依然存在坐标粘连的问题。此时需要重新对生成器进行训练，直至生成器收敛，图像偏差小于偏差阈值时，得到训练好的生成器。

在一些实施例中，为了能够更好的判断生成器是否已经收敛，步骤S600还可以演变为：

S601：获取所述样本图像的预测标签。所述预测标签包含用户对于样本图片的兴趣程度、喜好、需求等要素。例如，用户可以根据当前样本图像中的数字人，制定预设想要优化的部分，如毛发粘连不清晰，瞳孔细节、面部表情等。

S602：获取所述训练图像的实际标签；实际标签即为所生成的训练图像的各项数值标签。例如，训练图像的清晰度，面部细节优化程度等。

S603：在获取到预测标签和实际标签之后，计算所述实际标签与所述预测标签的偏差。获取当前训练图像中与预测标签不符的各项数值，即为训练生成器的过程中，不符合用户预期的各项数值。

S604：根据偏差，通过自适应矩估计算法更新所述生成器的参数。在更新参数的过程中，还需要考虑预测标签对应的各项数值，根据上述偏差，将对应的项目数据向接近预测标签的方向进行调整，如果大于预测标签的对应数字，即向小调整，如果小于预测标签的对应数字，即向大调整。最后根据调整后的参数，更新生成器，并进行迭代训练，直至生成器收敛。

在一些实施例中，为了测试上述生成器的训练情况，所述方法还包括：

S701：将预设比例数量的样本图像作为测试集。

例如，将按照8:2的比例，将样本图像分为训练集和测试集，示例性的，如果存在1000张样本图像，那么800张样本图像作为训练集，剩下200张样本图像作为测试集。

S702：在生成器进行一次训练后，将所述测试集输入至训练后的生成器中，得到损失函数反馈的损失值。所述损失值用于指示本次训练后得到的训练图像与标准图像之间的图像损失。

需要说明的是，上述标准图像是已经解决图像坐标粘连后的高精度图像，由其他已经训练好的生成器生成得到，用于参照当前生成器的收敛情况。

S703：如果所述损失值大于损失阈值，说明本次训练后，生成器所生成的训练图像仍无法满足标准图像的输出精度，生成器未完成训练，所以还需要对所述生成器进行迭代训练。

S704：如果所述损失值小于损失阈值，说明本次训练之后，生成器所生成的训练图像能够满足标准图像的输出精度，并且可避免图像坐标粘连问题，生成器完成训练，得到训练好的生成器。

在一些实施例中，在训练生成器时，还需要同步训练样本音频，所述方法还包括：

S801：从所述样本视频中提取样本音频；所述样本音频为所述样本图片中预设人物执行预设话术时对应的音频；

S802：对所述样本音频进行预处理，得到样本音频序列；

S803：将所述样本音频序列与所述样本图像序列进行合并，得到样本图音数据；

S804：使用门控卷积网络对所述样本图音数据进行编码处理，得到所述样本图音编码；

S805：使用逆门控卷积网络对所述样本图音编码进行解码处理，得到训练图音序列；

S806：对所述训练图音序列进行拼接处理，得到训练音像。

步骤S801-S806中的有益技术效果与上述生成器对应部分记载的有益效果相同，不再赘述。上述实施例中仅用于训练生成器的过程，在步骤S801-S804中，分别为提取样本音频和样本图像，并将样本音频和样本图像处理为样本音频序列和样本图像序列，合并后进行编码处理得到样本图音编码，并进行后续的训练处理。

本申请部分实施例还提供了一种避免图像坐标粘连方法，应用于上述训练方法训练得到的生成器，同时，本实施例提供的方法也可用于之前实施例所记载的生成器，如图7所示，所述方法包括：

S1：获取待处理图像；所述待处理图像中包括至少一个目标人物；

S2：对所述待处理图像进行预处理，得到图像序列；

S3：使用门控卷积网络对所述图像序列进行编码处理，得到图像编码；

S4：使用逆门控卷积网络对所述图像编码进行解码处理，得到目标图像序列；

S5：将所述目标图像序列进行拼接处理，得到目标图像。

本申请实施例中，避免图像坐标粘连方法对应的技术效果可参见上述基于门控网络的生成器中的记载，在此不再赘述。

由以上方案可知，本申请提供一种基于门控网络的生成器、生成器训练方法和避免图像坐标粘连方法。所述生成器通过图像输入层将待处理图像处理为图像序列，并将图像序列输入至特征编码层，由多层特征编码层使用门控卷积网络对图像序列进行编码，得到图像编码。并由多层图像解码层使用逆门控卷积单元对图像编码进行解码处理，得到目标图像序列，最后由图像输出层将目标图像序列进行拼接处理，以得到的目标图像。待处理图像在经过上述通过门控卷积网络和逆门控卷积网络的处理后，所得到的目标图像中的人物特征更加明显，使所生成数字人的面部图像细节更加生动，解决了现有生成器通过生成对抗网络生成的数字人图像出现的图像坐标粘连问题，提高了用户体验。

本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征，部件或特性包括在至少一个实施例中，因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等，并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、部件或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括早本申请的范围之内。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于门控网络的生成器，其特征在于，所述生成器包括：图像输入层、特征编码层、特征解码层和图像输出层，其中，

2.根据权利要求1所述的基于门控网络的生成器，其特征在于，所述门控卷积网络包括特征过滤单元、膨胀卷积单元和归一化层，其中，

3.根据权利要求2所述的基于门控网络的生成器，其特征在于，所述特征过滤单元包括2D卷积单元和激活函数；

4.根据权利要求1所述的基于门控网络的生成器，其特征在于，所述待处理图像中包括至少一个目标人物执行说话动作；所述生成器还包括第一特征编码区、第二特征编码区和音频输入层，其中，

5.根据权利要求1所述的基于门控网络的生成器，其特征在于，所述逆门控卷积网络包括：差值采样单元和门控卷积单元；

所述门控卷积单元被配置为输出所述采样数据。

6.一种生成器的训练方法，用于训练权利要求1-5中任意一项所述的基于门控网络的生成器，其特征在于，所述方法包括:

对所述样本图像进行预处理，得到样本图像序列；

对所述训练图像序列进行拼接处理，得到训练图像；

7.根据权利要求6所述的生成器的训练方法，其特征在于，所述根据损失函数计算所述样本图像与所述训练图像之间的图像偏差的步骤包括：

获取所述样本图像的预测标签；

获取所述训练图像的实际标签；

计算所述实际标签与所述预测标签的偏差；

8.根据权利要求6所述的生成器的训练方法，其特征在于，所述方法还包括：

将预设比例数量的样本图像作为测试集；

如果所述损失值小于所述损失阈值，得到训练好的生成器。

9.根据权利要求6所述的生成器的训练方法，其特征在于，所述方法还包括：

对所述样本音频进行预处理，得到样本音频序列；

对所述训练图音序列进行拼接处理，得到训练音像。

10.一种避免图像坐标粘连方法，应用于权利要求6-9中任意一项所述的训练方法训练得到的生成器，其特征在于，所述方法包括：

对所述待处理图像进行预处理，得到图像序列；

将所述目标图像序列进行拼接处理，得到目标图像。