CN112232221A - 用于人物图像处理的方法、系统和程序载体 - Google Patents

用于人物图像处理的方法、系统和程序载体 Download PDF

Info

Publication number
CN112232221A
CN112232221A CN202011118576.XA CN202011118576A CN112232221A CN 112232221 A CN112232221 A CN 112232221A CN 202011118576 A CN202011118576 A CN 202011118576A CN 112232221 A CN112232221 A CN 112232221A
Authority
CN
China
Prior art keywords
image
network
person
feature information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011118576.XA
Other languages
English (en)
Inventor
支蓉
张武强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Daimler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler AG filed Critical Daimler AG
Priority to CN202011118576.XA priority Critical patent/CN112232221A/zh
Publication of CN112232221A publication Critical patent/CN112232221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域及自动驾驶领域。一种用于人物图像处理的方法,所述方法包括以下步骤:获取原始人物图像;从原始人物图像提取第一特征信息和第二特征信息,所述第二特征信息不同于所述第一特征信息;以及,基于所述第一特征信息和第二特征信息,在结合使用变分自编码器和生成对抗网络的情况下训练所述人物图像生成模型。本发明还提供一种借助人物图像生成模型生成人物图像的方法、一种用于人物图像处理的系统和一种机器可读程序载体。本发明旨在结合考虑GAN和VAE的情况下对人物图像的不同特征信息之间的影响进行建模,并且利用不同特征的自动解耦优化人物图像生成模型的训练过程。

Description

用于人物图像处理的方法、系统和程序载体
技术领域
本发明涉及一种用于人物图像处理的方法、一种借助人物图像生成模型生成人物图像的方法、一种用于人物图像处理的系统和一种机器可读程序载体。
背景技术
在人物识别方面,神经网络的表现直接取决于网络结构本身和训练时使用的丰富的训练样本。越真实、自然的图像训练样本能够越有利地提升神经网络的泛化能力识别准确度。然而,真实的训练样本需要大量的采集、筛选及标注工作,而且最终采集到的数据集往往是不均衡的,这种不均衡的数据集极大程度地增加了神经网络的训练难度。为了更好地训练神经网络,现有技术中提出了通过特定的人物图像生成模型来生成人物图像作为神经网络的训练样本。
现有技术中通常使用如变分自编码器(Variational Autoencoder,简称VAE)、生成式对抗网络(Generative Adversarial Networks,简称GAN)等生成式网络(GenerativeNetworks)来生成更多的图像。现有的生成网络通常只借助了其中一种方法进行训练,例如:仅使用VAE时,通常会导致图像模糊、不真实等问题;仅使用GAN时,通常会造成图像内容扭曲、生成过程不可控等问题。因此,对诸如目标检测、人物姿态识别、人物身份识别等不仅对于神经网络的整体表现要求较高,而且对图像的数量、质量和种类也有极高要求的任务来讲,现有的生成网络无法满足这些需求。
发明内容
本发明的目的在于提供一种用于人物图像处理的方法、一种借助人物图像生成模型生成人物图像的方法、一种用于人物图像处理的系统和一种机器可读程序载体。
根据本发明的第一方面,提供一种用于人物图像处理的方法,所述方法包括以下步骤:
S1:获取原始人物图像;
S2:从原始人物图像提取第一特征信息和第二特征信息,所述第二特征信息不同于所述第一特征信息;以及
S3:基于所述第一特征信息和第二特征信息,在结合使用变分自编码器和生成对抗网络的情况下训练所述人物图像生成模型。
本发明尤其包括以下技术构思:通过在训练过程中对VAE和GAN的结合使用,不仅能够借助生成对抗过程确保对人物图像高频信息的准确复原,而且克服了VAE和GAN分别单独使用时带来的图像内容模糊、细节缺失、生成种类不丰富等问题。此外,通过特征提取网络提取人物的第一特征和第二特征,再将特征在生成器中融合,实现了不同人物特征之间的自动解耦和融合,从而最终能够提供一种可控的人物图像生成过程。
可选地,所述步骤S3包括:
S31:基于第一特征信息和第二特征信息,借助生成对抗网络的生成式网络生成复原人物图像,其中,使用变分自编码器与U-Net网络的组合作为所述生成式网络;
S32:将复原人物图像和原始人物图像输入到生成对抗网络的判别式网络中判别真伪;
S33:根据复原人物图像与原始人物图像之间的偏差调整人物图像生成模型的至少一个参数。
可选地,所述步骤S2包括:借助变分自编码器网络和/或U-Net网络从原始人物图像提取人物姿态特征向量和人物外观特征向量。
在此,由于在训练过程中仅使用了人物姿态信息和人物外观信息,因此省去了额外的人物掩模(Mask)技术来扣除人物的前景和背景,从而有利地节约了成本。此外,在基于生成对抗网络架构来优化人物图像生成的训练过程的基础上,本发明提出在特征提取方面引入变分自编码器,从而在训练过程中不需要附加的目标人物在不同姿态或外观下的解耦式学习,而是能够直接在图像数据集上进行端到端的训练。
可选地,在执行步骤S2之前,所述方法还包括以下步骤:
从原始人物图像中分割出人物区域;
在所述人物区域中提取人物关键点信息;以及
对人物关键点信息进行拼接和可视化处理,以得到人物姿态图像。
可选地,从原始人物图像中分割出人物区域包括:在原始人物图像中裁切出大于人物边界框的图像块,以确保人物图像的部分背景出现在所裁切出的图像块中。
可选地,所述步骤S33包括:基于复原人物图像以及判别式网络的判别结果计算损失函数;以及,根据所述损失函数调整人物图像生成模型的至少一个参数。
可选地,对生成式网络使用的损失函数包括:
第一部分是基于VGG19在MSCOCO上的预训网络的内容损失(特征L2损失),其公式表示如下:
Figure BDA0002731211100000031
其中,F为VGG19网络特征参数,X为输入的原始人物图像,
Figure BDA0002731211100000032
为生成的复原人物图像,{lc}为VGG19对应的特征层。
第二部分是KL散度距离,其公式表示如下:
Figure BDA0002731211100000033
其中,X为输入的原始人物图像,Y为输入的人物姿态图像,z为提取到的图像整体特征,
Figure BDA0002731211100000034
Figure BDA0002731211100000035
分别表示在所使用的特征提取网络的中间层得到的未经采样的(均值)特征向量。
第三部分是基于VGG19预训网络的风格损失(格拉姆矩阵L2损失),其公式表示如下:
Figure BDA0002731211100000036
其中,F为VGG19网络特征参数,G为VGG19网络特征参数的格拉姆(Gram)矩阵,X为输入的原始人物图像,
Figure BDA0002731211100000037
为生成的复原人物图像,{lS}为VGG19对应的特征层。
第四部分是判别式网络的FM(Feature Matching)损失,其公式表示如下:
Figure BDA0002731211100000038
其中,D为判别式网络的网络特征参数,X为输入的原始人物图像,
Figure BDA0002731211100000039
为生成的复原人物图像,{lD}为判别式网络对应的特征层。这种FM损失的计算建立在判别式网络的输出上,所谓FM(feature matching)理解为要求生成式网络产生的图像在经过判别式网络时,提取的特征尽可能接近(匹配)原始人物图像经过判别式网络时提取的特征。
可选地,对判别式网络使用的损失函数通过以下等式表示:
Figure BDA0002731211100000041
其中,X为输入的原始人物图像,
Figure BDA0002731211100000042
为生成的复原人物图像,Y为输入的人物姿态图像,EX,Y
Figure BDA0002731211100000043
分别表示期望,Dis(X,Y)和
Figure BDA0002731211100000044
分别表示判别式网络的输出结果。
根据本发明的第二方面,提供一种借助人物图像生成模型生成人物图像的方法,其中,所述人物图像生成模型为根据第一方面所述的方法中所述的人物图像生成模型,所述方法包括以下步骤:
获取第一人物图像的特征信息;
获取第二人物图像的另一特征信息;以及
将所述特征信息和所述另一特征信息输入到人物图像生成模型中,以生成目标人物图像,其中,所述目标人物图像具有第一人物图像的特征信息并且具有第二人物图像的另一特征信息。
根据本发明的第三方面,提供一种用于人物图像处理的系统,所述系统用于执行根据本发明的第一方面的方法,所述系统包括:
图像获取模块,其配置成能够获取原始人物图像;
特征提取模块,其配置成能够从原始人物图像提取第一特征信息和第二特征信息,所述第二特征信息不同于所述第一特征信息;以及
训练模块,其配置成能够基于所述第一特征信息和所述第二特征信息,在结合使用变分自编码器和生成对抗网络的情况下训练所述人物图像生成模型。
根据本发明的第四方面,提供一种机器可读程序载体,在其上存储有计算机程序,所述计算机程序用于当其在计算机上运行时能够实施根据本发明的第一方面的方法。
附图说明
下面,通过参看附图更详细地描述本发明,可以更好地理解本发明的原理、特点和优点。附图包括:
图1示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的流程图;
图2示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的特征提取步骤的流程图;
图3示出了根据本发明的方法提取的人物图像关键点和人物姿态;
图4示出了在本发明的方法中使用的特征提取器VAE的示意图;
图5示出了在本发明的方法中使用的另一特征提取器U-Net的示意图;
图6示出了根据本发明的一个示例性实施例的用于借助人物图像生成模型生成人物图像的方法的流程图;以及
图7示出了根据本发明的一个示例性实施例的用于人物图像处理的系统的框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白,以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,而不是用于限定本发明的保护范围。
图1示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的流程图。
在步骤S1中,获取原始人物图像。
在本发明的意义上,原始人物图像尤其理解为从真实图像中(人工地或机器地)选取出的包括人物的图像,这些真实图像例如可以通过图像获取装置采集。
就自动驾驶领域而言,原始人物图像可以通过安装在车辆上的图像获取装置(例如摄像机)采集并存储到存储介质中。也可能的是,原始人物图像由车辆的周围环境中的一个或多个摄像机采集,或者该原始图像也可以是由多个摄像机从不同角度采集的图像的合成图像。可选地,采集过程或存储过程例如可以具有固定的时间间隔规定,并且同一场景的采集帧数不应与其他场景的采集帧数有较大差距。可选地,在采集过程中,尤其可以通过表示唯一编码的时间戳来对图像进行区分,以防止相似的个体多次或重复出现。
在步骤S2中,从原始人物图像提取第一特征信息和第二特征信息,所述第二特征信息不同于所述第一特征信息。
在此,第一特征信息例如表示人物姿态信息,第二特征信息例如表示人物外观信息。例如可以将原始人物图像经过简单处理之后输入到特征提取网络(例如编码器网络)中,以便得到人物姿态特征向量和人物外观特征向量。编码器网络的种类有很多,示例性地,可以在人物姿态信息的提取方面使用U-Net网络,而在人物外观信息的提取方面引入VAE网络以实现人物图像的不同特征之间的自动解耦。
在步骤S3中,基于所述第一特征信息和第二特征信息,在结合使用变分自编码器和生成对抗网络的情况下训练人物图像生成模型。
具体而言,例如可以在步骤S31中基于第一特征信息和第二特征信息,借助生成对抗模型的生成式网络生成复原人物图像。在此,尤其可以将所提取的特征向量输入到预设的生成式网络中生成目标图像(在此指复原人物图像)。示例性地,在此可以使用U-Net与VAE网络的组合作为所使用的生成式网络,同时,生成复原图像过程中采用的U-Net网络部分可以与特征提取步骤中采用的U-Net网络部分的相应层数进行跳跃连接。
在步骤S32中,可以将复原人物图像和原始人物图像输入到生成对抗网络的判别式网络中判别真伪。在此,例如可以使用马尔可夫判别器(Patch-GAN),该判别器完全由卷积层构成,其输出的是n×n的矩阵,最后将输出矩阵的均值作为真伪(True/False)的输出。基于这种判别器,可以对原始图像中的各个图像块分别进行真伪判断并进行加权平均,从而能够在总体上得出最终判断:生成的人物图像与原始图像是否为相同的人物图像。
在步骤S33中,根据复原人物图像与原始人物图像之间的偏差调整人物图像生成模型的至少一个参数。在此,例如计算在步骤S32中生成的复原人物图像与原始人物图像之间的特征差值,然后将计算得到的特征差值用于更新人物图像生成模型的参数。示例性地,可以基于复原人物图像以及判别式网络的判别结果计算损失函数,并且响应于所计算的损失函数的值不断进行生成对抗网络的迭代训练,直到该损失函数值收敛或者达到预设的训练步数,此时可以将最终训练完成的生成式网络确定为人物图像生成模型。
可选地,如图1示例性所示,在步骤S33中可以进一步判断人物图像生成模型的训练是否达到预设训练步数,若未达到,则将损失函数更新梯度反向传播至所有网络参数中,并重新提取特征训练该模型。
损失函数的设计方式有很多种,本发明实施例中对生成式网络部分采用的损失函数包括四部分:
第一部分是基于VGG19在MSCOCO上的预训网络的内容损失(特征L2损失),其公式表示如下:
Figure BDA0002731211100000071
其中,F为VGG19网络特征参数,X为输入的原始人物图像,
Figure BDA0002731211100000072
为生成的复原人物图像,{lc}为VGG19对应的特征层。
第二部分是KL散度距离,其公式表示如下:
Figure BDA0002731211100000073
其中,X为输入的原始人物图像,Y为输入的人物姿态图像,z为提取到的图像整体特征,
Figure BDA0002731211100000074
Figure BDA0002731211100000075
分别表示在所使用的特征提取网络的中间层得到的未经采样的(均值)特征向量。
第三部分是基于VGG19预训网络的风格损失(格拉姆矩阵L2损失),其公式表示如下:
Figure BDA0002731211100000076
其中,F为VGG19网络特征参数,G为VGG19网络特征参数的格拉姆(Gram)矩阵,X为输入的原始人物图像,
Figure BDA0002731211100000077
为生成的复原人物图像,{lS}为VGG19对应的特征层。
第四部分是判别式网络的FM(Feature Matching)损失,其公式表示如下:
Figure BDA0002731211100000078
其中,D为判别式网络的网络特征参数,X为输入的原始人物图像,
Figure BDA0002731211100000079
为生成的复原人物图像,{lD}为判别式网络对应的特征层。这种FM损失的计算建立在判别式网络的输出上,所谓FM(feature matching)理解为要求生成式网络产生的图像在经过判别式网络时,提取的特征尽可能接近(匹配)原始人物图像经过判别式网络时提取的特征。
将这些项结合起来为生成网络部分的损失函数,生成式网络的目的是最小化此处的损失函数。这样设计损失函数的目的是在保留图像内容与图像风格的情况下,把人物姿态与外观特征解耦开来,以便在人物图像生成过程中可以控制这些参数,判别式网络的FM损失则可以极大程度上保留图像在高频部分的真实性,使得生成的图像质量更高,同时可以稳定判别式网络的训练过程,让网络最终趋于收敛。类似的损失函数设计方式还有很多,在具备各项损失函数功能的前提下,本发明对此部分损失函数的具体设计方式和占比均不作限制。
在本示例性实施例中,对判别式网络部分采用的损失函数为log损失,其公式表示如下:
Figure BDA0002731211100000081
其中,X为输入的原始人物图像,
Figure BDA0002731211100000082
为生成的复原人物图像,Y为输入的人物姿态图像,EX,Y
Figure BDA0002731211100000083
分别表示期望,Dis(X,Y)和
Figure BDA0002731211100000084
分别表示判别式网络的输出结果。
判别式网络的目的是最大化该损失函数,由此可以训练判别式网络分辨出真假图像。继而在训练过程中可以与生成器进行对抗式训练,间接促使生成器达到更好的生成效果。类似的损失函数设计方式还有很多,在具备判别式网络功能的前提下,本发明对此部分损失函数的具体设计和占比均不作限制。
图2示出了根据本发明的一个示例性实施例的用于人物图像处理的方法的特征提取步骤的流程图。
在步骤S201中,从所获取的原始人物图像中分割出人物区域。在此,例如可以将图像裁剪成包含完整人物且大于人物边界框的图像块,以确保原始人物图像的部分背景出现在该裁剪出的人物图像块中。
在步骤S202中,在人物区域中提取人物关键点信息。在此,可以直接提取出通过人工标注好的关键点信息,或者也可以采用预训练的人体姿态估计模型检测图像中人物的关键点坐标。具体地,人物的姿态关键点检测方法有很多种,本发明中采用的是OpenPose检测法在MSCOCO上训练得到的预训练模型,这里的检测方法还可以是任何可以检测到图像中人物姿态关键点的方法,本发明实施例对上述检测方法不进行具体限制。
在步骤S203中,对人物关键点信息进行拼接和可视化处理,以得到人物姿态图像。在此,可以将获得的人物姿态关键点信息根据现实生活中的人体骨架连接方式进行拼接,并借助RGB图像进行可视化处理,由此得到人物姿态图像。本发明对具体的拼接顺序和可视化处理方式不进行具体限制。
在步骤S204中,将得到的人物姿态图像以及在步骤S201中分割出的人物图像块分别输入到相应的编码器网络中进行特征向量提取,以得到人物外观特征向量和人物姿态特征向量。
图3示出了根据本发明的方法提取的人物图像关键点和人物姿态。在图3左侧示出了借助本发明的方法提取的人物关键点,在图3右侧示出了将人物关键点按照骨架连接并经过可视化处理之后形成的人物姿态图像。
图4示出了在本发明的方法中使用的特征提取器VAE的示意图。
在特征提取步骤中的目的是对图像块进行语义分割,即利用像素周围的图像块对每一个像素执行独立分类,以便释义出所需的特征向量。在本实施例中使用VAE网络来实现从原始人物图像对人物外观特征向量的提取,该VAE网络包括编码器部分402和解码器部分406,其中,该编码器部分402用于将输入的图像数据401编码成均值向量403和方差向量404,该解码器部分406用于把这些向量恢复成图像数据407。此外,这种VAE网络允许通过从方差向量405采样并加到均值向量上,通过这一过程能够从外部添加起到干预作用的潜在变量,以实现对人物外观特征向量与人物姿态特征向量的自动解耦。与常规自编码器相比,在本实施例中使用的变分自编码器不需要附加目标人物的解耦式学习,而是能够直接通过编码器中提取到的外观特征向量与引入的条件特征向量(姿态特征向量)进行约束,使得特征向量与条件特征向量在各个维度中相互独立,以自动地完成人体姿态和外观的良好分离。
在根据本发明的方法中,将分割出的人物图像块401输入到VAE网络中,在此将VAE网络中间层采样过后的特征向量405提取为所需的人物外观特征向量。
图5示出了在本发明的方法中使用的另一特征提取器U-Net的示意图。
在本实施例中使用U-Net网络的一部分作为特征提取网络来对人物姿态特征向量进行提取,同时使用U-Net网络的另一部分来生成复原图像。如图5所示,U-Net网络分为两部分,第一部分、即编码器502用于逐渐减少空间维度,以便对输入的图像501进行相应的特征提取。第二部分、即解码器504用于进行上采样,以便逐步修复物体的细节和空间维度,从而形成输出图像505。在编码器502与解码器504之间通常存在快捷连接,因此能帮助解码器更好地修复目标的细节。
在根据本发明的方法中,将拼接得到的人物姿态特征图像501输入到该U-Net网络中,在经过编码器之后获得相应的人物姿态特征向量503。然后,将VAE网络的输出结果(人物外观特征向量)与U-Net网络的中间层耦合在一起,以确保最后由条件U-Net生成的复原图像不但具有原始输入图像的固定变现(外观特征),而且纳入了随机姿态的潜在表征,使得生成的图像与所提取的姿态特征表现出一致性。
图6示出了根据本发明的一个示例性实施例的用于借助人物图像生成模型生成人物图像的方法的流程图。在此,人物图像生成模型在根据本发明的用于人物图像处理的方法中使用。
在步骤S61中,获取第一人物图像的特征信息。示例性地,该特征信息可以是人物的姿态特征向量。在此例如可以使用预训练的模型提取人物图像的关键点信息,并将其可视化为人物姿态图像。然后例如可以借助相应的特征提取网络从人物姿态图像提取出人物姿态特征向量。
在步骤S62中,获取第二人物图像的另一特征信息。示例性地,该另一特征信息可以是人物的外观特征向量。在此例如可以使用预训练的模型提取人物关键点信息,并借助从人物图像中分割出人物区域。然后将包含人物区域的图像块输入到特征提取网络中,以分离出相应的外观特征向量。
在步骤S63中,将所述特征信息和另一特征信息输入到人物图像生成模型中,以生成目标人物图像。在此,基于经训练的人物图像生成模型对在步骤S61和S62中分别提取的特征信息进行融合,从而得到目标人物图像。示例性地,该目标人物图像具有第一人物图像的姿态特征并且具有第二人物图像的外观特征。
图7示出了根据本发明的一个示例性实施例的用于人物图像处理的系统的框图。
如图7所示,系统70包括:
图像获取模块71,其配置成能够获取原始人物图像。
特征提取模块72,其配置成能够从原始人物图像提取第一特征信息和第二特征信息,所述第二特征信息不同于所述第一特征信息。
训练模块73,其配置成能够基于所述第一特征信息和第二特征信息,在结合使用变分自编码器和生成对抗网络的情况下训练人物图像生成模型。
作为示例,训练模块73可以包括复原模块731,其配置成能够基于人物姿态信息和人物外观信息,借助生成对抗网络的生成式网络生成复原人物图像。
训练模块73还可以包括判别模块732,其配置成能够将复原人物图像和原始人物图像输入到生成对抗网络的判别式网络中判别真伪。
训练模块73还可以包括参数调整模块733,其配置成能够根据复原人物图像与原始人物图像之间的偏差调整人物图像生成模型的至少一个参数。
尽管这里详细描述了本发明的特定实施方式,但它们仅仅是为了解释的目的而给出的,而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下,各种替换、变更和改造可被构想出来。

Claims (10)

1.一种用于人物图像处理的方法,所述方法包括以下步骤:
S1:获取原始人物图像;
S2:从原始人物图像提取第一特征信息和第二特征信息,所述第二特征信息不同于所述第一特征信息;以及
S3:基于所述第一特征信息和第二特征信息,在结合使用变分自编码器和生成对抗网络的情况下训练人物图像生成模型。
2.根据权利要求1所述的方法,其中,所述步骤S3包括:
S31:基于第一特征信息和第二特征信息,借助生成对抗网络的生成式网络生成复原人物图像,其中,使用变分自编码器与U-Net网络的组合作为所述生成式网络;
S32:将复原人物图像和原始人物图像输入到生成对抗网络的判别式网络中判别真伪;
S33:根据复原人物图像与原始人物图像之间的偏差调整人物图像生成模型的至少一个参数。
3.根据权利要求1或2所述的方法,其中,所述步骤S2包括:
借助变分自编码器网络和/或U-Net网络从原始人物图像提取人物姿态特征向量和人物外观特征向量。
4.根据权利要求1至3中任一项所述的方法,在执行步骤S2之前,所述方法还包括以下步骤:
从原始人物图像中分割出人物区域;
在所述人物区域中提取人物关键点信息;
对人物关键点信息进行拼接和可视化处理,以得到人物姿态图像。
5.根据权利要求2所述的方法,其中,所述步骤S33包括:
基于复原人物图像以及判别式网络的判别结果计算损失函数;以及
根据所述损失函数调整人物图像生成模型的至少一个参数。
6.根据权利要求5所述的方法,其中,对生成式网络使用的损失函数包括:
第一部分,所述第一部分通过以下等式表示:
Figure FDA0002731211090000021
其中,F为VGG19网络特征参数,X为输入的原始人物图像,
Figure FDA0002731211090000022
为生成的复原人物图像,{lc}为VGG19对应的特征层;
第二部分,所述第二部分通过以下等式表示:
Figure FDA0002731211090000023
其中,X为输入的原始人物图像,Y为输入的人物姿态图像,z为提取到的图像整体特征,
Figure FDA0002731211090000024
Figure FDA0002731211090000025
分别表示在所使用的特征提取网络的中间层得到的未经采样的特征向量;
第三部分,所述第三部分通过以下等式表示:
Figure FDA0002731211090000026
其中,F为VGG19网络特征参数,G为VGG19网络特征参数的格拉姆矩阵,X为输入的原始人物图像,
Figure FDA00027312110900000210
为生成的复原人物图像,{lS}为VGG19对应的特征层;
第四部分,所述第四部分通过以下等式表示:
Figure FDA0002731211090000027
其中,D为判别式网络的网络特征参数,X为输入的原始人物图像,
Figure FDA00027312110900000211
为生成的复原人物图像,{lD}为判别式网络对应的特征层。
7.根据权利要求5所述的方法,其中,对判别式网络使用的损失函数通过以下等式表示:
Figure FDA0002731211090000028
其中,X为输入的原始人物图像,
Figure FDA0002731211090000029
为生成的复原人物图像,Y为输入的人物姿态图像,EX,Y
Figure FDA00027312110900000212
分别表示期望,Dis(X,Y)和
Figure FDA00027312110900000213
分别表示判别式网络的输出结果。
8.一种用于借助人物图像生成模型生成人物图像的方法,其中,所述人物图像生成模型为根据权利要求1至7中任一项所述的方法中所述的人物图像生成模型,所述方法包括以下步骤:
获取第一人物图像的特征信息;
获取第二人物图像的另一特征信息;以及
将所述特征信息和所述另一特征信息输入到人物图像生成模型中,以生成目标人物图像,其中,所述目标人物图像具有第一人物图像的特征信息并且具有第二人物图像的另一特征信息。
9.一种用于人物图像处理的系统,所述系统用于执行根据权利要求1至7中任一项所述的方法,所述系统包括:
图像获取模块,其配置成能够获取原始人物图像;
特征提取模块,其配置成能够从原始人物图像提取第一特征信息和第二特征信息,所述第二特征信息不同于所述第一特征信息;以及
训练模块,其配置成能够基于所述第一特征信息和所述第二特征信息,在结合使用变分自编码器和生成对抗网络的情况下训练所述人物图像生成模型。
10.一种机器可读程序载体,在其上存储有计算机程序,所述计算机程序用于当其在计算机上运行时能够实施根据权利要求1至7中任一项所述的方法。
CN202011118576.XA 2020-10-19 2020-10-19 用于人物图像处理的方法、系统和程序载体 Pending CN112232221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011118576.XA CN112232221A (zh) 2020-10-19 2020-10-19 用于人物图像处理的方法、系统和程序载体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011118576.XA CN112232221A (zh) 2020-10-19 2020-10-19 用于人物图像处理的方法、系统和程序载体

Publications (1)

Publication Number Publication Date
CN112232221A true CN112232221A (zh) 2021-01-15

Family

ID=74117535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011118576.XA Pending CN112232221A (zh) 2020-10-19 2020-10-19 用于人物图像处理的方法、系统和程序载体

Country Status (1)

Country Link
CN (1) CN112232221A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486944A (zh) * 2021-07-01 2021-10-08 深圳市英威诺科技有限公司 人脸融合方法、装置、设备及存储介质
WO2024055194A1 (zh) * 2022-09-14 2024-03-21 维沃移动通信有限公司 虚拟对象生成方法、编解码器训练方法及其装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486944A (zh) * 2021-07-01 2021-10-08 深圳市英威诺科技有限公司 人脸融合方法、装置、设备及存储介质
WO2024055194A1 (zh) * 2022-09-14 2024-03-21 维沃移动通信有限公司 虚拟对象生成方法、编解码器训练方法及其装置

Similar Documents

Publication Publication Date Title
Anwar et al. Image colorization: A survey and dataset
CN108717524B (zh) 一种基于双摄手机和人工智能系统的手势识别系统
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN112528902B (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
CN115699082A (zh) 缺陷检测方法及装置、存储介质及电子设备
Liu et al. Attentive cross-modal fusion network for RGB-D saliency detection
CN111639580A (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
Kim et al. Exposing fake faces through deep neural networks combining content and trace feature extractors
CN112232221A (zh) 用于人物图像处理的方法、系统和程序载体
CN113808005A (zh) 一种基于视频驱动的人脸姿态迁移方法及装置
CN114331946A (zh) 一种图像数据处理方法、设备以及介质
CN111310720A (zh) 基于图度量学习的行人重识别方法及系统
CN113283372A (zh) 用于处理人物图像的方法和设备
CN117094895B (zh) 图像全景拼接方法及其系统
CN110633631B (zh) 一种基于部件幂集和多尺度特征的行人重识别方法
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법
CN109165551B (zh) 一种自适应加权融合显著性结构张量和lbp特征的表情识别方法
CN114118199A (zh) 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统
CN113781372A (zh) 一种基于深度学习的戏曲脸谱生成方法及系统
CN113724273A (zh) 一种基于神经网络区域目标分割的边缘光影融合方法
CN114698398A (zh) 图像处理方法、图像处理装置、电子设备及可读存储介质
JP2004199200A (ja) パターン認識装置、撮像装置、情報処理システム、パターン認識方法、記録媒体、及びプログラム
CN114612798B (zh) 基于Flow模型的卫星图像篡改检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination