CN112232221A

CN112232221A - 用于人物图像处理的方法、系统和程序载体

Info

Publication number: CN112232221A
Application number: CN202011118576.XA
Authority: CN
Inventors: 支蓉; 张武强
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-15

Abstract

本发明涉及计算机视觉领域及自动驾驶领域。一种用于人物图像处理的方法，所述方法包括以下步骤：获取原始人物图像；从原始人物图像提取第一特征信息和第二特征信息，所述第二特征信息不同于所述第一特征信息；以及，基于所述第一特征信息和第二特征信息，在结合使用变分自编码器和生成对抗网络的情况下训练所述人物图像生成模型。本发明还提供一种借助人物图像生成模型生成人物图像的方法、一种用于人物图像处理的系统和一种机器可读程序载体。本发明旨在结合考虑GAN和VAE的情况下对人物图像的不同特征信息之间的影响进行建模，并且利用不同特征的自动解耦优化人物图像生成模型的训练过程。

Description

用于人物图像处理的方法、系统和程序载体

技术领域

本发明涉及一种用于人物图像处理的方法、一种借助人物图像生成模型生成人物图像的方法、一种用于人物图像处理的系统和一种机器可读程序载体。

背景技术

在人物识别方面，神经网络的表现直接取决于网络结构本身和训练时使用的丰富的训练样本。越真实、自然的图像训练样本能够越有利地提升神经网络的泛化能力识别准确度。然而，真实的训练样本需要大量的采集、筛选及标注工作，而且最终采集到的数据集往往是不均衡的，这种不均衡的数据集极大程度地增加了神经网络的训练难度。为了更好地训练神经网络，现有技术中提出了通过特定的人物图像生成模型来生成人物图像作为神经网络的训练样本。

现有技术中通常使用如变分自编码器(Variational Autoencoder，简称VAE)、生成式对抗网络(Generative Adversarial Networks，简称GAN)等生成式网络(GenerativeNetworks)来生成更多的图像。现有的生成网络通常只借助了其中一种方法进行训练，例如：仅使用VAE时，通常会导致图像模糊、不真实等问题；仅使用GAN时，通常会造成图像内容扭曲、生成过程不可控等问题。因此，对诸如目标检测、人物姿态识别、人物身份识别等不仅对于神经网络的整体表现要求较高，而且对图像的数量、质量和种类也有极高要求的任务来讲，现有的生成网络无法满足这些需求。

发明内容

本发明的目的在于提供一种用于人物图像处理的方法、一种借助人物图像生成模型生成人物图像的方法、一种用于人物图像处理的系统和一种机器可读程序载体。

根据本发明的第一方面，提供一种用于人物图像处理的方法，所述方法包括以下步骤：

S1：获取原始人物图像；

S2：从原始人物图像提取第一特征信息和第二特征信息，所述第二特征信息不同于所述第一特征信息；以及

S3：基于所述第一特征信息和第二特征信息，在结合使用变分自编码器和生成对抗网络的情况下训练所述人物图像生成模型。

本发明尤其包括以下技术构思：通过在训练过程中对VAE和GAN的结合使用，不仅能够借助生成对抗过程确保对人物图像高频信息的准确复原，而且克服了VAE和GAN分别单独使用时带来的图像内容模糊、细节缺失、生成种类不丰富等问题。此外，通过特征提取网络提取人物的第一特征和第二特征，再将特征在生成器中融合，实现了不同人物特征之间的自动解耦和融合，从而最终能够提供一种可控的人物图像生成过程。

可选地，所述步骤S3包括：

S31：基于第一特征信息和第二特征信息，借助生成对抗网络的生成式网络生成复原人物图像，其中，使用变分自编码器与U-Net网络的组合作为所述生成式网络；

S32：将复原人物图像和原始人物图像输入到生成对抗网络的判别式网络中判别真伪；

S33：根据复原人物图像与原始人物图像之间的偏差调整人物图像生成模型的至少一个参数。

可选地，所述步骤S2包括：借助变分自编码器网络和/或U-Net网络从原始人物图像提取人物姿态特征向量和人物外观特征向量。

在此，由于在训练过程中仅使用了人物姿态信息和人物外观信息，因此省去了额外的人物掩模(Mask)技术来扣除人物的前景和背景，从而有利地节约了成本。此外，在基于生成对抗网络架构来优化人物图像生成的训练过程的基础上，本发明提出在特征提取方面引入变分自编码器，从而在训练过程中不需要附加的目标人物在不同姿态或外观下的解耦式学习，而是能够直接在图像数据集上进行端到端的训练。

可选地，在执行步骤S2之前，所述方法还包括以下步骤：

从原始人物图像中分割出人物区域；

在所述人物区域中提取人物关键点信息；以及

对人物关键点信息进行拼接和可视化处理，以得到人物姿态图像。

可选地，从原始人物图像中分割出人物区域包括：在原始人物图像中裁切出大于人物边界框的图像块，以确保人物图像的部分背景出现在所裁切出的图像块中。

可选地，所述步骤S33包括：基于复原人物图像以及判别式网络的判别结果计算损失函数；以及，根据所述损失函数调整人物图像生成模型的至少一个参数。

可选地，对生成式网络使用的损失函数包括：

第一部分是基于VGG19在MSCOCO上的预训网络的内容损失(特征L2损失)，其公式表示如下：

其中，F为VGG19网络特征参数，X为输入的原始人物图像，

为生成的复原人物图像，{l_c}为VGG19对应的特征层。

第二部分是KL散度距离，其公式表示如下：

其中，X为输入的原始人物图像，Y为输入的人物姿态图像，z为提取到的图像整体特征，

和

分别表示在所使用的特征提取网络的中间层得到的未经采样的(均值)特征向量。

第三部分是基于VGG19预训网络的风格损失(格拉姆矩阵L2损失)，其公式表示如下：

其中，F为VGG19网络特征参数，G为VGG19网络特征参数的格拉姆(Gram)矩阵，X为输入的原始人物图像，

为生成的复原人物图像，{l_S}为VGG19对应的特征层。

第四部分是判别式网络的FM(Feature Matching)损失，其公式表示如下：

其中，D为判别式网络的网络特征参数，X为输入的原始人物图像，

为生成的复原人物图像，{l_D}为判别式网络对应的特征层。这种FM损失的计算建立在判别式网络的输出上，所谓FM(feature matching)理解为要求生成式网络产生的图像在经过判别式网络时，提取的特征尽可能接近(匹配)原始人物图像经过判别式网络时提取的特征。

可选地，对判别式网络使用的损失函数通过以下等式表示：

其中，X为输入的原始人物图像，

为生成的复原人物图像，Y为输入的人物姿态图像，E_X，Y和

分别表示期望，Dis(X，Y)和

分别表示判别式网络的输出结果。

根据本发明的第二方面，提供一种借助人物图像生成模型生成人物图像的方法，其中，所述人物图像生成模型为根据第一方面所述的方法中所述的人物图像生成模型，所述方法包括以下步骤：

获取第一人物图像的特征信息；

获取第二人物图像的另一特征信息；以及

将所述特征信息和所述另一特征信息输入到人物图像生成模型中，以生成目标人物图像，其中，所述目标人物图像具有第一人物图像的特征信息并且具有第二人物图像的另一特征信息。

根据本发明的第三方面，提供一种用于人物图像处理的系统，所述系统用于执行根据本发明的第一方面的方法，所述系统包括：

图像获取模块，其配置成能够获取原始人物图像；

特征提取模块，其配置成能够从原始人物图像提取第一特征信息和第二特征信息，所述第二特征信息不同于所述第一特征信息；以及

训练模块，其配置成能够基于所述第一特征信息和所述第二特征信息，在结合使用变分自编码器和生成对抗网络的情况下训练所述人物图像生成模型。

根据本发明的第四方面，提供一种机器可读程序载体，在其上存储有计算机程序，所述计算机程序用于当其在计算机上运行时能够实施根据本发明的第一方面的方法。

附图说明

下面，通过参看附图更详细地描述本发明，可以更好地理解本发明的原理、特点和优点。附图包括：

图1示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的流程图；

图2示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的特征提取步骤的流程图；

图3示出了根据本发明的方法提取的人物图像关键点和人物姿态；

图4示出了在本发明的方法中使用的特征提取器VAE的示意图；

图5示出了在本发明的方法中使用的另一特征提取器U-Net的示意图；

图6示出了根据本发明的一个示例性实施例的用于借助人物图像生成模型生成人物图像的方法的流程图；以及

图7示出了根据本发明的一个示例性实施例的用于人物图像处理的系统的框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白，以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，而不是用于限定本发明的保护范围。

图1示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的流程图。

在步骤S1中，获取原始人物图像。

在本发明的意义上，原始人物图像尤其理解为从真实图像中(人工地或机器地)选取出的包括人物的图像，这些真实图像例如可以通过图像获取装置采集。

就自动驾驶领域而言，原始人物图像可以通过安装在车辆上的图像获取装置(例如摄像机)采集并存储到存储介质中。也可能的是，原始人物图像由车辆的周围环境中的一个或多个摄像机采集，或者该原始图像也可以是由多个摄像机从不同角度采集的图像的合成图像。可选地，采集过程或存储过程例如可以具有固定的时间间隔规定，并且同一场景的采集帧数不应与其他场景的采集帧数有较大差距。可选地，在采集过程中，尤其可以通过表示唯一编码的时间戳来对图像进行区分，以防止相似的个体多次或重复出现。

在步骤S2中，从原始人物图像提取第一特征信息和第二特征信息，所述第二特征信息不同于所述第一特征信息。

在此，第一特征信息例如表示人物姿态信息，第二特征信息例如表示人物外观信息。例如可以将原始人物图像经过简单处理之后输入到特征提取网络(例如编码器网络)中，以便得到人物姿态特征向量和人物外观特征向量。编码器网络的种类有很多，示例性地，可以在人物姿态信息的提取方面使用U-Net网络，而在人物外观信息的提取方面引入VAE网络以实现人物图像的不同特征之间的自动解耦。

在步骤S3中，基于所述第一特征信息和第二特征信息，在结合使用变分自编码器和生成对抗网络的情况下训练人物图像生成模型。

具体而言，例如可以在步骤S31中基于第一特征信息和第二特征信息，借助生成对抗模型的生成式网络生成复原人物图像。在此，尤其可以将所提取的特征向量输入到预设的生成式网络中生成目标图像(在此指复原人物图像)。示例性地，在此可以使用U-Net与VAE网络的组合作为所使用的生成式网络，同时，生成复原图像过程中采用的U-Net网络部分可以与特征提取步骤中采用的U-Net网络部分的相应层数进行跳跃连接。

在步骤S32中，可以将复原人物图像和原始人物图像输入到生成对抗网络的判别式网络中判别真伪。在此，例如可以使用马尔可夫判别器(Patch-GAN)，该判别器完全由卷积层构成，其输出的是n×n的矩阵，最后将输出矩阵的均值作为真伪(True/False)的输出。基于这种判别器，可以对原始图像中的各个图像块分别进行真伪判断并进行加权平均，从而能够在总体上得出最终判断：生成的人物图像与原始图像是否为相同的人物图像。

在步骤S33中，根据复原人物图像与原始人物图像之间的偏差调整人物图像生成模型的至少一个参数。在此，例如计算在步骤S32中生成的复原人物图像与原始人物图像之间的特征差值，然后将计算得到的特征差值用于更新人物图像生成模型的参数。示例性地，可以基于复原人物图像以及判别式网络的判别结果计算损失函数，并且响应于所计算的损失函数的值不断进行生成对抗网络的迭代训练，直到该损失函数值收敛或者达到预设的训练步数，此时可以将最终训练完成的生成式网络确定为人物图像生成模型。

可选地，如图1示例性所示，在步骤S33中可以进一步判断人物图像生成模型的训练是否达到预设训练步数，若未达到，则将损失函数更新梯度反向传播至所有网络参数中，并重新提取特征训练该模型。

损失函数的设计方式有很多种，本发明实施例中对生成式网络部分采用的损失函数包括四部分：

其中，F为VGG19网络特征参数，X为输入的原始人物图像，

为生成的复原人物图像，{l_c}为VGG19对应的特征层。

第二部分是KL散度距离，其公式表示如下：

和

为生成的复原人物图像，{l_S}为VGG19对应的特征层。

将这些项结合起来为生成网络部分的损失函数，生成式网络的目的是最小化此处的损失函数。这样设计损失函数的目的是在保留图像内容与图像风格的情况下，把人物姿态与外观特征解耦开来，以便在人物图像生成过程中可以控制这些参数，判别式网络的FM损失则可以极大程度上保留图像在高频部分的真实性，使得生成的图像质量更高，同时可以稳定判别式网络的训练过程，让网络最终趋于收敛。类似的损失函数设计方式还有很多，在具备各项损失函数功能的前提下，本发明对此部分损失函数的具体设计方式和占比均不作限制。

在本示例性实施例中，对判别式网络部分采用的损失函数为log损失，其公式表示如下：

其中，X为输入的原始人物图像，

为生成的复原人物图像，Y为输入的人物姿态图像，E_X，Y和

分别表示期望，Dis(X，Y)和

分别表示判别式网络的输出结果。

判别式网络的目的是最大化该损失函数，由此可以训练判别式网络分辨出真假图像。继而在训练过程中可以与生成器进行对抗式训练，间接促使生成器达到更好的生成效果。类似的损失函数设计方式还有很多，在具备判别式网络功能的前提下，本发明对此部分损失函数的具体设计和占比均不作限制。

图2示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的特征提取步骤的流程图。

在步骤S201中，从所获取的原始人物图像中分割出人物区域。在此，例如可以将图像裁剪成包含完整人物且大于人物边界框的图像块，以确保原始人物图像的部分背景出现在该裁剪出的人物图像块中。

在步骤S202中，在人物区域中提取人物关键点信息。在此，可以直接提取出通过人工标注好的关键点信息，或者也可以采用预训练的人体姿态估计模型检测图像中人物的关键点坐标。具体地，人物的姿态关键点检测方法有很多种，本发明中采用的是OpenPose检测法在MSCOCO上训练得到的预训练模型，这里的检测方法还可以是任何可以检测到图像中人物姿态关键点的方法，本发明实施例对上述检测方法不进行具体限制。

在步骤S203中，对人物关键点信息进行拼接和可视化处理，以得到人物姿态图像。在此，可以将获得的人物姿态关键点信息根据现实生活中的人体骨架连接方式进行拼接，并借助RGB图像进行可视化处理，由此得到人物姿态图像。本发明对具体的拼接顺序和可视化处理方式不进行具体限制。

在步骤S204中，将得到的人物姿态图像以及在步骤S201中分割出的人物图像块分别输入到相应的编码器网络中进行特征向量提取，以得到人物外观特征向量和人物姿态特征向量。

图3示出了根据本发明的方法提取的人物图像关键点和人物姿态。在图3左侧示出了借助本发明的方法提取的人物关键点，在图3右侧示出了将人物关键点按照骨架连接并经过可视化处理之后形成的人物姿态图像。

图4示出了在本发明的方法中使用的特征提取器VAE的示意图。

在特征提取步骤中的目的是对图像块进行语义分割，即利用像素周围的图像块对每一个像素执行独立分类，以便释义出所需的特征向量。在本实施例中使用VAE网络来实现从原始人物图像对人物外观特征向量的提取，该VAE网络包括编码器部分402和解码器部分406，其中，该编码器部分402用于将输入的图像数据401编码成均值向量403和方差向量404，该解码器部分406用于把这些向量恢复成图像数据407。此外，这种VAE网络允许通过从方差向量405采样并加到均值向量上，通过这一过程能够从外部添加起到干预作用的潜在变量，以实现对人物外观特征向量与人物姿态特征向量的自动解耦。与常规自编码器相比，在本实施例中使用的变分自编码器不需要附加目标人物的解耦式学习，而是能够直接通过编码器中提取到的外观特征向量与引入的条件特征向量(姿态特征向量)进行约束，使得特征向量与条件特征向量在各个维度中相互独立，以自动地完成人体姿态和外观的良好分离。

在根据本发明的方法中，将分割出的人物图像块401输入到VAE网络中，在此将VAE网络中间层采样过后的特征向量405提取为所需的人物外观特征向量。

图5示出了在本发明的方法中使用的另一特征提取器U-Net的示意图。

在本实施例中使用U-Net网络的一部分作为特征提取网络来对人物姿态特征向量进行提取，同时使用U-Net网络的另一部分来生成复原图像。如图5所示，U-Net网络分为两部分，第一部分、即编码器502用于逐渐减少空间维度，以便对输入的图像501进行相应的特征提取。第二部分、即解码器504用于进行上采样，以便逐步修复物体的细节和空间维度，从而形成输出图像505。在编码器502与解码器504之间通常存在快捷连接，因此能帮助解码器更好地修复目标的细节。

在根据本发明的方法中，将拼接得到的人物姿态特征图像501输入到该U-Net网络中，在经过编码器之后获得相应的人物姿态特征向量503。然后，将VAE网络的输出结果(人物外观特征向量)与U-Net网络的中间层耦合在一起，以确保最后由条件U-Net生成的复原图像不但具有原始输入图像的固定变现(外观特征)，而且纳入了随机姿态的潜在表征，使得生成的图像与所提取的姿态特征表现出一致性。

图6示出了根据本发明的一个示例性实施例的用于借助人物图像生成模型生成人物图像的方法的流程图。在此，人物图像生成模型在根据本发明的用于人物图像处理的方法中使用。

在步骤S61中，获取第一人物图像的特征信息。示例性地，该特征信息可以是人物的姿态特征向量。在此例如可以使用预训练的模型提取人物图像的关键点信息，并将其可视化为人物姿态图像。然后例如可以借助相应的特征提取网络从人物姿态图像提取出人物姿态特征向量。

在步骤S62中，获取第二人物图像的另一特征信息。示例性地，该另一特征信息可以是人物的外观特征向量。在此例如可以使用预训练的模型提取人物关键点信息，并借助从人物图像中分割出人物区域。然后将包含人物区域的图像块输入到特征提取网络中，以分离出相应的外观特征向量。

在步骤S63中，将所述特征信息和另一特征信息输入到人物图像生成模型中，以生成目标人物图像。在此，基于经训练的人物图像生成模型对在步骤S61和S62中分别提取的特征信息进行融合，从而得到目标人物图像。示例性地，该目标人物图像具有第一人物图像的姿态特征并且具有第二人物图像的外观特征。

如图7所示，系统70包括：

图像获取模块71，其配置成能够获取原始人物图像。

特征提取模块72，其配置成能够从原始人物图像提取第一特征信息和第二特征信息，所述第二特征信息不同于所述第一特征信息。

训练模块73，其配置成能够基于所述第一特征信息和第二特征信息，在结合使用变分自编码器和生成对抗网络的情况下训练人物图像生成模型。

作为示例，训练模块73可以包括复原模块731，其配置成能够基于人物姿态信息和人物外观信息，借助生成对抗网络的生成式网络生成复原人物图像。

训练模块73还可以包括判别模块732，其配置成能够将复原人物图像和原始人物图像输入到生成对抗网络的判别式网络中判别真伪。

训练模块73还可以包括参数调整模块733，其配置成能够根据复原人物图像与原始人物图像之间的偏差调整人物图像生成模型的至少一个参数。

尽管这里详细描述了本发明的特定实施方式，但它们仅仅是为了解释的目的而给出的，而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下，各种替换、变更和改造可被构想出来。