CN110796080B - 一种基于生成对抗网络的多姿态行人图像合成算法 - Google Patents

一种基于生成对抗网络的多姿态行人图像合成算法 Download PDF

Info

Publication number
CN110796080B
CN110796080B CN201911036294.2A CN201911036294A CN110796080B CN 110796080 B CN110796080 B CN 110796080B CN 201911036294 A CN201911036294 A CN 201911036294A CN 110796080 B CN110796080 B CN 110796080B
Authority
CN
China
Prior art keywords
image
constructing
generator
loss function
countermeasure network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911036294.2A
Other languages
English (en)
Other versions
CN110796080A (zh
Inventor
葛永新
李光睿
徐玲
洪明坚
杨梦宁
黄晟
王洪星
陈飞宇
张小洪
杨丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201911036294.2A priority Critical patent/CN110796080B/zh
Publication of CN110796080A publication Critical patent/CN110796080A/zh
Application granted granted Critical
Publication of CN110796080B publication Critical patent/CN110796080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于生成对抗网络的多姿态行人图像合成算法,包括以下步骤:S1:通过行人重识别任务数据集Market‑1501中获取训练数据集和测试数据集;S2:根据预设方法通过训练数据集构建生成对抗网络模型;S3:采用预设方法向生成对抗网络模型输入中加入姿态信息潜码;S4:基于姿态信息潜码构建生成对抗网络模型的目标函数,并利用带有目标函数的生成对抗网络模型合成多姿态的行人图像;S5:根据合成的多姿态行人图像进行实验结果分析。有益效果:本发明有效地缩小了生成器的解空间,使得生成对抗网络训练更加平稳,从而可以生成高质量的多姿态行人图片。

Description

一种基于生成对抗网络的多姿态行人图像合成算法
技术领域
本发明涉及图像合成算法技术领域,具体来说,涉及一种基于生成对抗网络的多姿态行人图像合成算法。
背景技术
在计算机视觉领域中,可以生成看上去更为现实、自然的图片的算法变得越来越受欢迎,这得益于现实生活中对于高质量合成图像的需求变得越来越高。而人物姿态迁移又是一个在该领域中非常活跃的主题。随着深度神经网络在计算机视觉中的广泛应用,近几年来,各种新颖的生成式网络结构,例如变分自编码网络和生成对抗网络在图像生成领域都取得了一定的成就。
然而,目前大多数基于条件信息的生成对抗网络(condition GAN)更多的将精力集中于潜码的表达或者图像质量上,而忽略了行人个体信息的保留以及个体之间特征的差异性。对于Wasserstein等人提出的基于生成对抗网络的特性,其存在以下缺点:生成器远远比判别器难训练到收敛,因此判别器很容易早于生成器收敛,从而出现过于强大的判别器,导致生成器与判别器之间的对抗训练与学习无从进行,并抑制生成器对特征空间的学习和模仿。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:保证个体信息尽可能的保留、生成图片低层、高层信息真实图片尽可能的一致,以及缓和生成器与判别器之间的对抗训练,避免两者之间提前收敛,使得训练尽可能的稳定。
为解决上述技术问题,本发明采用如下技术方案:一种基于生成对抗网络的多姿态行人图像合成算法,包括以下步骤:
S1:通过行人重识别任务数据集Market-1501中获取训练数据集和测试数据集;
S2:根据预设方法通过所述训练数据集构建生成对抗网络模型;
S3:采用预设方法向所述生成对抗网络模型输入中加入姿态信息潜码;
S4:基于所述姿态信息潜码构建所述生成对抗网络模型的目标函数,并利用带有所述目标函数的生成对抗网络模型合成多姿态的行人图像;
S5:根据合成的所述多姿态行人图像进行实验结果分析。
进一步的,所述S2中根据预设方法通过所述训练数据集构建生成对抗网络模型具体包括以下步骤:
S21:生成器的构建,通过预设方法构建所述生成器;
其中,所述S21中通过预设方法构建所述生成器具体包括以下步骤:
S211:通过三层卷积核和一条跳跃连接构成残差模块,并设定m为所述残差模块的输入;
S212:编码器通过三层卷积在瓶颈处生成特征向量F(m),并设定m+F(m)为所述残差模块的输出;
S213:在解码器的中间层抽取特征,并通过一个卷积层输出原图四分之一的图片;
S22:分类器的构建,在所述生成器的瓶颈处,添加一个基于softmax多分类的卷积神经网络,将所述特征向量F(x)针对个体进行多分类;
S23:判别器的构建,设计两组判别器,分别用于对所述残差模块输出和所述原图四分之一大小图片的判断。
进一步的,用于所述生成器输出的判别器的分辨率为原图大小,用于所述原图四分之一大小图片的判别器的分辨率为小分辨率,且用于小分辨率的所述判别器层数比用于原图的所述判别器层数少两层。
进一步的,所述S3中采用预设方法向所述生成对抗网络模型输入中加入姿态信息潜码具体包括以下步骤:
S31:利用OpenPose模型对姿态信息潜码进行提取;
其中,所述S31中利用OpenPose模型对姿态信息潜码进行提取具体包括以下步骤:
S311:以所述训练数据集中的图片作为输入,通过反向传播网络同时预测:身体部位位置的一组二维置信度图以及用于编码身体部分关联程度的相邻亲和力的一组二维向量;
S312:基于相邻亲和场进行身体部位的聚合;
S313:基于贪心推理,进行人与人之间姿态信息的分割;
S32:根据预设方法将提取的所述姿态信息潜码加入所述生成对抗网络模型输入中。
其中,所述S32中根据预设方法将提取的所述姿态信息潜码加入所述生成对抗网络模型输入中具体包括以下步骤:
S321:通过OpenPose库提取各个关键点的坐标信息,并生成一张黑色背景,以半径为5的白色圆形表达关键点的图片;
S322:将含有姿态信息的图像作为第四通道与原有的RGB图像进行叠加,并作为输入的第四个通道。
进一步的,所述S4中基于所述姿态信息潜码构建所述生成对抗网络模型的目标函数具体包括以下步骤:
S41:设定IA指某张姿态为A的行人图像,IB是姿态为B的目标图像,将目标图像的姿态PB与IA相加并作为生成器G的输入,输出为具有目标姿态PB的合成图像
Figure GDA0004177944430000031
小分辨率、原分辨率判别器分别以D1,D2指代;
S42:构建生成对抗网络损失函数;
其中,所述S42中构建生成对抗网络损失函数具体包括以下步骤:
S421:构建生成对抗网络的目标函数表达式:
Figure GDA0004177944430000032
其中,D表示判别器,G(Z,C)表示生成器,C表示潜码,I(C;G(Z,C))表示共同信息项;
S422:定义辅助分布Q(c|x)逼近P(c|x),从而获取一个下界:
Figure GDA0004177944430000033
S423:构建生成对抗网络部分的损失函数表达式:
Figure GDA0004177944430000034
Figure GDA0004177944430000035
其中E表示分布函数的期待值,Pdate表示真实数据的分布;
S43:构建L1距离损失函数;
其中,所述S43中构建L1距离损失函数具体包括以下步骤:构建两个分辨率下的损失函数表达式:
Figure GDA0004177944430000036
其中,Gmid(IA,PB)是生成器中间层的输出,CS是将生成器中间层生成为小分辨率图像的小型卷积神经网络,LL1为原分辨率图像的L1损失函数,/>
Figure GDA0004177944430000041
为小分辨率图像的L1损失函数;
S44:构建图片块损失函数;
其中,所述S44中构建图片块损失函数具体包括以下步骤:构建基于patch的损失函数表达式:
Figure GDA0004177944430000042
其中,/>
Figure GDA0004177944430000043
表示图片/>
Figure GDA0004177944430000048
中的第i个patch,并将原图与生成图像的对应位置的patch进行对比,H、W表示的是当前图像的基于patch的高度和宽度,Lpatch和/>
Figure GDA0004177944430000044
分别表示原分辨率下、小分辨率下的基于patch的损失函数;
S45:构建交叉熵损失函数;
其中,S45中构建交叉熵损失函数具体包括以下步骤:
S451:在所述生成器的瓶颈处,所述分类器基于softmax分类层进行训练:z=Ψ(mbottleneck),其中,z表示在瓶颈处的卷积神经网络Ψ的输出,mbottleneck表示在生成器瓶颈处的特征向量;
S452:设softmax层前的输出为一个向量V,vj代表v中第j个元素,则该元素的softmax值为:
Figure GDA0004177944430000045
S453:构建基于softmax的分类器的损失函数为:
Figure GDA0004177944430000046
S46:构建所述生成对抗网络模型的目标函数:
Figure GDA0004177944430000047
相对于现有技术,本发明的有益效果为:基于经典的编码器-解码器结构,提出了包含分类器、小分辨率图片卷积器在内的新的生成器网络,通过在中间层、瓶颈处插入卷积神经网络的方式在图像生成过程中添加针对个体的、高低层信息的、类间差异的有效地监督及对应的损失函数,不仅有效地缩小了生成器的解空间,使得个体信息尽可能的保留,生成图片的高低层信息与真实图片尽可能的一致,而且还有效地缓和了生成器与判别器之间的对抗训练,使得生成对抗网络训练更加平稳,可以生成高质量的多姿态行人图片。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于生成对抗网络的多姿态行人图像合成算法的流程示意图;
图2是根据本发明实施例中Market-1501数据集中的样本示例图;
图3是根据本发明实施例中用于测试阶段的十个模板姿态图;
图4是根据本发明实施例中不同姿态信息表示示例图;
图5是根据本发明实施例中生成对抗网络模型的整体架构;
图6是残差模块示意图和本发明实施例中的残差模块示意图;
图7是根据本发明实施例中的姿态信息生成过程示意图;
图8是根据本发明实施例中姿态输入信息样本示例图;
图9是根据本发明实施例中softmax分类的示意图;
图10是根据本发明实施例中实验结果示意图;
图11是根据本发明实施例中无小分辨率图片情况下的结果示意图;
图12是根据本发明实施例中无分类器情况下的结果示意图;
图13是根据本发明实施例中当前最先进的行人图像合成模型复现后的生成结果示意图;
图14是根据本发明实施例中输入行人状态为骑行时的生成结果示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于生成对抗网络的多姿态行人图像合成算法。
现结合附图和具体实施方式对本发明进一步说明,如图1-14所示,根据本发明实施例的一种基于生成对抗网络的多姿态行人图像合成算法,包括以下步骤:
S1:通过行人重识别任务数据集Market-1501中获取训练数据集和测试数据集;
具体应用时,生成对抗网络模型的训练和测试都是在当前最大的行人重识别任务数据集Market-1501上,如图2所示,其中包含来自六台分离的监视摄像机捕获的1501人的32688张行人图像,此数据集中的行人在姿态、照明、视角和背景方面各不相同,从而使得生成新的行人图像极具挑战性,所有图像的尺寸为128*64,并分成分别为12936张、19732张的训练集与测试集。
而本发明中生成对抗网络模型的训练并非完全基于以上所有的图片,由于OpenPose库并非对每一张图片的每一个关键点都能做到完美地提取,故筛选出能够检测数14个关键点以上的共4641张图片作为训练数据集,并在同一个训练行人的ID下,对不同的姿态的属于同一行人的图片进行组合,形成了共58706对的训练数据集。
在测试过程中,本实施例从测试数据集中随机选取10个能够完好检测到所有身体关键点的姿态作为模板姿态,然后从测试集随机选取200张图片,每一张图片分别和模板姿态中的每一个作组合并输入生成器,即对应每个测试集中的图片,生成10个不同姿态的图片。如图3所示,为用于测试阶段的基于点信息的姿态模板。
此外,在潜码的输入形式上,本实施例中进行了多种尝试,如图4所示,为其中的示例:(a)是算法模型中输入的潜码的最终表示形式,人身体的18个关节点包含:鼻子、颈、左肩膀、左手肘、左手腕、左肩膀、右手肘、右手腕、左臀部、左膝盖、左脚踝、右臀部、左膝盖、右脚踝、左眼睛、右眼睛、左耳朵、右耳朵、背景以纯黑色为背景,以半径为5的白色圆圈标注以上18个关节点。
(b)尝试将腿部连接,以增强腿部信息的学习,但实验证明,连接线起到了较强的干扰作用,随符合直觉,但不能很好地适用于卷积神经网络。
(c)尝试用不同的灰度值赋值关键点,给予不同图像间相同关节点赋值相同,并且不同关节点间灰度值不同,实验证明,效果仍不理想,原因是关节点的颜色越深,即关节点的灰度越接近黑色,由于难以与背景区分,导致此类关节点很难学习到。
S2:根据预设方法通过所述训练数据集构建生成对抗网络模型;
如图5所示,为本实施例中生成对抗网络模型的整体架构,生成器由四部分组成:编码器、解码器、分类卷积网络、小分辨率图像生成卷积网络;且设计两个判别器网络,分别对应生成器中间层特征卷积而来的小分辨率图像和生成器网络最终生成的图像。
如下表1所示,为生成对抗网络模型中的编码器结构,可以看到,先进行边缘填充,由3个卷积层,和8个残差模块组成,其中每个卷积层后跟随者一层批正则化层和ReLu激活层。
每个残差模块两个卷积层,两个批正则化层,一个激活层,一个边缘填充层组成,与前面卷积层不同的是,残差模块中的卷积层的卷积核大小为1x1。
表1编码器网络结构
Figure GDA0004177944430000071
Figure GDA0004177944430000081
如下表2为生成器中解码器的网络架构与具体参数,反卷积层与编码器中残差模块外的的卷积层一一对应,包括每一层的具体参数,步长、卷积核等。
表2解码器网络架构
Figure GDA0004177944430000091
如下表3为用于生成小分辨率图片的卷积神经网络,在具体实现中,这个卷积神经网络的输入是在解码器中第一个反卷积层的输出的特征向量,经过对比验证,使用tanh激活函数的效果最好。
表3小分辨率图片生成卷积网络
层名称 具体细节与参数 输入通道数 输出通道数
卷积层 卷积核大小=(1,1),步长=(1,1) 128 3
Tanh激活层 3 3
如下表4为为用于监督行人个体特征的基于卷积神经网络的多分类器,先以卷积层调整特征向量的尺寸,然后以全连接层生成1 x 739的特征向量,739维的原因是Market-1501数据集的训练集中的行人个体数量为739。
表4基于softmax的多分类器卷积网络
Figure GDA0004177944430000092
其中,所述S2中根据预设方法通过所述训练数据集构建生成对抗网络模型具体包括以下步骤:
S21:生成器的构建,通过预设方法构建所述生成器;
本实施中是基于残差模块(residual block),通过另一种形式的跳跃连接,既能够较好的保留低层次信息,又能免去跳跃连接带来的计算和模型上的负担。如图6(a)所示,残差模块(residual block)由两层卷积核一条跳跃连接组成,x作为该模块的输入,经过两层卷积生成F(x),该模块的输出则是将x与F(x)加起来,作为下一个模块的输出。而在本实施例的生成对抗网络模型中,采用了图6(b)中的设计,具体如下:
所述S21中通过预设方法构建所述生成器具体包括以下步骤:
S211:通过三层卷积核和一条跳跃连接构成残差模块,并设定m为所述残差模块的输入;
S212:编码器通过三层卷积在瓶颈处生成特征向量F(m),并设定m+F(m)为所述残差模块的输出;
S213:在解码器的中间层抽取特征,并通过一个卷积层输出原图四分之一的图片,作为生成器的限制之一;
S22:分类器的构建,在所述生成器的瓶颈处,添加一个基于softmax多分类的卷积神经网络,将所述特征向量F(x)针对个体进行多分类;
具体应用时,本发明创造性地在生成器的瓶颈处,添加了一个基于softmax多分类的卷积神经网络,直接将瓶颈处,即前面编码器卷积而得来的特征向量进行针对个体的多分类,相当于在编码器处增加了一个针对个体信息的监督。通过softmax层实现了基于行人id的多分类任务,基于在瓶颈处的分类器,作为一个限制,起到了如下的作用:
1)、限制了瓶颈处的特征,即之前的卷积层提取的特征,都是与个体信息有着强烈相关性的,防止了个体重要信息的丢失。
2)、在前面的卷积层提取行人信息的同时,保证了个体间的(intra-identity)差异,避免丢失独属于行人个体的、与其余行人不同的信息,从而避免了在已有工作中出现的,不同行人的生成图片间一定的相似性。
S23:判别器的构建,设计两组判别器,分别用于对所述残差模块输出(即生成器的输出)和所述原图四分之一大小图片的判断。其中,由于两个判别器的输入的尺度(即分辨率)不同,故针对小尺度的判别器的层数比针对原图的判别器少两层。
具体应用时,通过多分辨率的判别器,该模型达到了以下效果:
1)、基于小尺度更多集中于全局信息的优点,通过小尺度的判别器实现了对生成图片与原图片全局信息、高层信息的一致性约束;通过大尺度图片和其对应的判别器实现了对生成图片与原图片局部信息、低层信息一致性的约束,两者相互辅助,实现对生成图片在局部信息与全局信息的约束。
2)、通过对中间层的特征信息进行约束,进一步约束了生成器的解空间,相当于在图片生成过程中加了一层约束,作为增强信息促进反卷积层在上采样过程中学习更加有利、有用的特征,从而加快生成器的收敛,使得训练过程更加平稳。
S3:采用预设方法向所述生成对抗网络模型输入中加入姿态信息潜码;
其中,所述S3中采用预设方法向所述生成对抗网络模型输入中加入姿态信息潜码具体包括以下步骤:
S31:利用OpenPose模型对姿态信息潜码进行提取;
具体的,如图7所示,所述S31中利用OpenPose模型对姿态信息潜码进行提取具体包括以下步骤:
S311:以所述训练数据集中的图片作为输入,通过反向传播网络同时预测:身体部位位置的一组二维置信度图以及用于编码身体部分关联程度的相邻亲和力的一组二维向量;
S312:基于相邻亲和场进行身体部位的聚合;如图7中将手肘与肩部联合来形成胳膊。
S313:基于贪心推理,进行人与人之间姿态信息的分割;
S32:根据预设方法将提取的所述姿态信息潜码加入所述生成对抗网络模型输入中。
具体的,所述S32中根据预设方法将提取的所述姿态信息潜码加入所述生成对抗网络模型输入中具体包括以下步骤:
S321:通过OpenPose库提取各个关键点的坐标信息后,如图8所示,生成一张黑色背景,以半径为5的白色圆形表达关键点的图片;
S322:将含有姿态信息的图像作为第四通道与原有的RGB图像进行叠加,并作为输入的第四个通道。
S4:基于所述姿态信息潜码构建所述生成对抗网络模型的目标函数,并利用带有所述目标函数的生成对抗网络模型合成多姿态的行人图像;
其中,所述S4中基于所述姿态信息潜码构建所述生成对抗网络模型的目标函数具体包括以下步骤:
S41:设定IA指某张姿态为A的行人图像,IB是姿态为B的目标图像,将目标图像的姿态PB与IA相加并作为生成器G的输入,输出为具有目标姿态PB的合成图像
Figure GDA0004177944430000111
小分辨率、原分辨率判别器分别以D1,D2指代;
S42:构建生成对抗网络损失函数;
具体应用时,传统生成对抗网络的损失函数表达形式为:
Figure GDA0004177944430000121
目标是通过学习使得生成器的分布pG(x)与真实的数据分布pdate(x)尽可能一致,GAN通过生成器网络G,以噪声数据z~pnoise(z)输入,生成生成器样本分布pG,生成器通过与判别器网络D对抗训练,对于给定生成器,最优化的判别器应当是D(x)=Pdate(x)/(Pdate(x)+PG(x))。
而本实施例中的生成对抗网络模型不仅于此,借鉴自InfoGAN,在整个生成对抗网络的生成对抗损失函数中将潜码(latent code)纳入了考虑,在最大化学习并保留共有信息(mutual information)的同时,学习多样化的姿态信息。
在这里本发明中用c表示潜码,在加入潜码的情况下,对于生成器而言,形式则变成了G(z,c),但在传统的生成器网络中,作为输入的一部分,潜码会对生成图片起到相当干扰作用,破坏原有的结构,故应当寻找一种表示,使得PG(x|c)=PG(x),从另一个角度来说,是寻求一种共同信息(mutual information),使得潜码包含在原有输入中。
在信息论中,X与Y共同信息表达为I(X;Y),意为从Y中能够学到的关于X的信息的多少。共同信息可以表达为两个熵值的差:I(X;Y)=H(X)–H(X|Y)=H(Y)–H(Y|X),直觉上来解释,I(X;Y)是当观察到Y时,对X的不确定性的减少程度。若X,Y完全独立,则I(X;Y)=0,相反,若为1,则两者互相间有着直接的决定性的联系。
以上的解释可以得出这样的代价函数:对于给定的x~PG(x),则要使PG(c|x)有着尽可能低的熵值。换句话说,潜码c中的信息在生成器的生成过程中不应被丢失。因此,设计生成对抗网络的目标函数。具体如下:所述S42中构建生成对抗网络损失函数具体包括以下步骤:
S421:构建生成对抗网络的目标函数表达式:
Figure GDA0004177944430000122
其中,D表示判别器,G(Z,C)表示生成器,C表示潜码,I(C;G(Z,C))表示共同信息项;
S422:定义辅助分布Q(c|x)逼近P(c|x),从而获取一个下界:
Figure GDA0004177944430000131
S423:构建生成对抗网络部分的损失函数表达式:
Figure GDA0004177944430000132
Figure GDA0004177944430000133
其中E表示分布函数的期待值,Pdate表示真实数据的分布;
S43:构建用于衡量并惩罚生成图片和目标图片之间差异的L1距离损失函数;
具体的,所述S43中构建L1距离损失函数具体包括以下步骤:构建两个分辨率下的损失函数表达式:
Figure GDA0004177944430000134
其中,Gmid(IA,PB)是生成器中间层的输出,CS是将生成器中间层生成为小分辨率图像的小型卷积神经网络,LL1为原分辨率图像的L1损失函数,/>
Figure GDA0004177944430000135
为小分辨率图像的L1损失函数;
本实施例中,不同于传统机器学习方法中使用的L2作为距离度量,L1距离在生成对抗网络中使用的更为广泛,原因是其能够更好地作为图片质量度量的情况下,鼓励生成器生成边缘更加锐利的图片,从而尽可能的保留生成图片的边缘信息。
直观上说,就是直接将生成图片与原图进行像素值直接进行差值运算,从而引导训练尽可能与原图接近。
与传统的利用L1距离的判别器不同,本发明利用了两个判别器D1和D2,分别对应中间层特征信息通过卷积生成的小分辨率图片,和原图大小的生成器的最终生成,在这两个部分的L1信息有着不同的意义和作用:
1)、相比于原分辨率而言,低分辨率更多的压缩了底层信息、细节信息,而保留了高层信息、结构信息,故小分辨率的判别器强化了对高层信息的学习,而大分辨率对细节信息、底层信息的学习进行了强化;
2)、从编码器-解码器结构角度而言,随着卷积层的加深,每一层卷积层的输出越来越向高层信息靠近,而解码器部分的反卷积则可以认为是卷积运算的逆过程,故浅层位置的反卷积是在基于高层信息进行解码、上采样,而反卷积层数越深,则越偏向底层信息,而两个基于L1距离的损失函数刚好与反卷积层不同位置的对低层、高层信息的学习对应起来。
S44:构建图片块损失函数;
具体应用时,传统判别器的损失函数一般基于传统机器学习方法中的二分类问题,即分类结果是离散的0-1分布,但由于生成器的生成图片的质量十分有限,而判别器由于卷积神经网络强大的特征提取能力,很容易通过个别细节判定生成的图片为假,而离散的0-1分布在反向传播算法中不能很好地鼓励生成图片的质量,故本发明中提出的模型的判别器创造性地使用了基于patch的损失函数。
所谓patch的产生,是基于卷积神经网络的特性决定的,对于相邻两层,通过大小为3*3的卷积核生成的后的一个像素则对应上一层的一个3*3的patch,若再通过一层步长为2的3*3卷积进行卷积运算,则新生成特征向量中的一个特征值则对应输入图片中的一个5*5的patch。
在本实施例实现的判别器模型中,Patch是基于判别器最后一层的输出进行判定,由于卷积神经网络的特征,最后一层的每一个特征值,基于感受野的原理,对应着原图中的一个patch,以原图大小(128*64像素)作为输入的判别器中,最后一层的特征向量中每一个特征值对应着7*7的patch。
对于每一个patch,通过对原图和生成图片对应位置的特征值判定,生成一个结果为0-1分布的结果,然后根据patch的分类结果生成一个连续的值,从而在反向传播算法中能够得将基于目标函数的反馈反向传播,从而很好地鼓励生成器生成的更高图片质量的图片。
具体的,所述S44中构建图片块损失函数具体包括以下步骤:构建基于patch的损失函数表达式:
Figure GDA0004177944430000141
其中,/>
Figure GDA0004177944430000142
表示图片/>
Figure GDA0004177944430000143
中的第i个patch,并将原图与生成图像的对应位置的patch进行对比,H、W表示的是当前图像的基于patch的高度和宽度,Lpatch和/>
Figure GDA0004177944430000144
分别表示原分辨率下、小分辨率下的基于patch的损失函数;
S45:构建交叉熵损失函数;
具体的,S45中构建交叉熵损失函数具体包括以下步骤:
S451:在所述生成器的瓶颈处,设计一个分类器,基于每个个体的ID进行多分类,在这里,所述分类器基于softmax分类层进行训练:z=Ψ(mbottleneck),其中,z表示在瓶颈处的卷积神经网络Ψ的输出,mbottleneck表示在生成器瓶颈处的特征向量;如图9所示,为softmax分类的示意图。
具体应用时,传统的one-hot编码,给预测的label赋值为1,其余赋值为0,这样虽然非常符合直觉,有着诸多缺点:1)、离散的输出不符合神经网络的反向传播算法,不能很好地将损失函数的差值进行反向传播;2)、One-hot编码一定程度上不符合典型的概率分布,即每次只预测一个结果,而忽略其余ID的可能性。基于以上one-hot的缺陷,本文的多分类器使用了基于softmax的多分类层。Softmax是将多个神经元的输出,映射到(0,1)区间内,从而进行多分类。
S452:设softmax层前的输出为一个向量V,vj代表v中第j个元素,则该元素的softmax值为:
Figure GDA0004177944430000151
S453:构建基于softmax的分类器的损失函数为:
Figure GDA0004177944430000152
/>
S46:构建所述生成对抗网络模型的目标函数:
Figure GDA0004177944430000153
S5:根据合成的所述多姿态行人图像进行实验结果分析。
本实施例中,实验设置的硬件环境为:
CPU:Intel Core i7-5820K CPU@3.30GHz x12
内存:128G
GPU:4x NVIDIA GeForce TITAN Xp
硬盘:12TB
操作系统:64位Ubuntu 14.04
开发语言为python,框架为PyTorch1.0,CUDA版本为8.0,CuDNN版本为5.0。
其中,所述S5中的实验结果分析如下:基于训练后的生成对抗网络模型,在测试阶段,随机抽取测试数据集中的图片和模板姿态作为输入,生成了以下结果,在每组展示样本中,最左侧为输入的原图,右侧十张为生成的对应于图10的十个姿态模板的生成图像。在Market-1501数据集中,图像分辨率为128*64,故生成图像分辨率也为128*64。
如图10所示为实验结果,以上为模型的最终结果,在尽可能保留行人原图片细节的前提下,对行人姿态进行了任意的变换,并且即使在腿部交叉的情况下依然生成了相当自然的图片,边缘锐利、清晰。
如图11所示为无小分辨率图片情况下的结果,出现了与目标姿态一定程度的偏离和变形。
如图12所示为无分类器情况下结果,如图中最下面一列,行人个体信息不能够很好地得到保留,出现了女性转变成男性的倾向。
如图13所示为当前最先进的行人图像合成模型复现后的生成结果,可以看出,细节信息、个体信息都不能得到很好地保留,且边缘模糊。
如图14所示为输入行人状态为骑行时的生成结果,由图示,当输入的行人状态是骑行时,结合以目标的姿态信息,虽然会一定程度上影响生成图片的质量,但依然能够有效、成功地生成基于新的姿态的图片,并且在生成图像中已经消除掉了自行车,可见训练的模型已经具有着相当强的鲁棒性和泛化能力。
本实验中通过进行大量的实验,并对每一部分网络的改动做出了解释和针对性地对比,验证了众多思路的实现效果,验证了本发明的思路的可行性,并证实了本发明所设计的模型在个体信息保留、低高层信息一致上皆优于目前的现有所有方案。
综上所述,本发明基于经典的编码器-解码器结构,提出了包含分类器、小分辨率图片卷积器在内的新的生成器网络,通过在中间层、瓶颈处插入卷积神经网络的方式在图像生成过程中添加针对个体的、高低层信息的、类间差异的有效地监督及对应的损失函数,不仅有效地缩小了生成器的解空间,使得个体信息尽可能的保留,生成图片的高低层信息与真实图片尽可能的一致,而且还有效地缓和了生成器与判别器之间的对抗训练,使得生成对抗网络训练更加平稳,可以生成高质量的多姿态行人图片。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于生成对抗网络的多姿态行人图像合成算法,其特征在于,包括以下步骤:
S1:通过行人重识别任务数据集Market-1501中获取训练数据集和测试数据集;
S2:根据预设方法通过所述训练数据集构建生成对抗网络模型,具体包括以下步骤:
S21:生成器的构建,通过预设方法构建所述生成器,具体包括以下步骤:
S211:通过三层卷积核和一条跳跃连接构成残差模块,并设定m为所述残差模块的输入;
S212:编码器通过三层卷积在瓶颈处生成特征向量F(m),并设定m+F(m)为所述残差模块的输出;
S213:在解码器的中间层抽取特征,并通过一个卷积层输出原图四分之一的图片;
S22:分类器的构建,在所述生成器的瓶颈处,添加一个基于softmax多分类的卷积神经网络,将所述特征向量F(f)针对个体进行多分类;
用于所述生成器输出的判别器的分辨率为原图大小,用于所述原图四分之一大小图片的判别器的分辨率为小分辨率,且用于小分辨率的所述判别器层数比用于原图的所述判别器层数少两层;
S23:判别器的构建,设计两组判别器,分别用于对所述残差模块输出和所述原图四分之一大小图片的判断;
S3:采用预设方法向所述生成对抗网络模型输入中加入姿态信息潜码,具体包括以下步骤:
S31:利用OpenPose模型对姿态信息潜码进行提取,具体包括以下步骤:
S311:将所述训练数据集中的图片作为反向传播网络的输入,由反向传播网络同时预测:身体部位位置的一组二维置信度图以及用于编码身体部分关联程度的相邻亲和力的一组二维向量;
S312:基于相邻亲和场进行身体部位的聚合;
S313:基于贪心推理,进行人与人之间姿态信息的分割
S32:根据预设方法将提取的所述姿态信息潜码加入所述生成对抗网络模型输入中,具体包括以下步骤:
S321:通过OpenPose库提取各个关键点的坐标信息,并生成一张黑色背景,以半径为5的白色圆形表达关键点的图片;
S322:将含有姿态信息的图像作为第四通道与原有的RGB图像进行叠加,并作为输入的第四个通道;
S4:基于所述姿态信息潜码构建所述生成对抗网络模型的目标函数,并利用带有所述目标函数的生成对抗网络模型合成多姿态的行人图像;
具体包括以下步骤:
S41:设定IA指某张姿态为A的行人图像,IB是姿态为B的目标图像,将目标图像的姿态PB与IA相加并作为生成器G的输入,输出为具有目标姿态PB的合成图像
Figure FDA0004208582870000021
小分辨率、原分辨率判别器分别以D1,D2指代;
S42:构建生成对抗网络损失函数;
所述S42中构建生成对抗网络损失函数具体包括以下步骤:
S421:构建生成对抗网络的目标函数表达式:
Figure FDA0004208582870000022
其中,D表示判别器,G(Z,C)表示生成器,C表示潜码,I(C;G(Z,C))表示共同信息项;
S422:定义辅助分布Q(c|x)逼近P(c|x),从而获取一个下界:
Figure FDA0004208582870000023
S423:构建生成对抗网络部分的损失函数表达式:
Figure FDA0004208582870000024
Figure FDA0004208582870000025
其中E表示分布函数的期待值,Pdate表示真实数据的分布;
S43:构建L1距离损失函数;
其中,所述S43中构建L1距离损失函数具体包括以下步骤:构建两个分辨率下的损失函数表达式:
Figure FDA0004208582870000026
其中,Gmid(IA,PB)是生成器中间层的输出,CS是将生成器中间层生成为小分辨率图像的小型卷积神经网络,LL1为原分辨率图像的L1损失函数,/>
Figure FDA0004208582870000027
为小分辨率图像的L1损失函数;
S44:构建图片块损失函数;
其中,所述S44中构建图片块损失函数具体包括以下步骤:构建基于patch的损失函数表达式:
Figure FDA0004208582870000031
其中,/>
Figure FDA0004208582870000032
表示图片/>
Figure FDA0004208582870000037
中的第i个patch,并将原图与生成图像的对应位置的patch进行对比,H、W表示的是当前图像的基于patch的高度和宽度,Lpatch和/>
Figure FDA0004208582870000033
分别表示原分辨率下、小分辨率下的基于patch的损失函数;
S45:构建交叉熵损失函数;
其中,S45中构建交叉熵损失函数具体包括以下步骤:
S451:在所述生成器的瓶颈处,所述分类器基于softmax分类层进行训练:zi=Ψ(mbottleneck),其中,zi表示在瓶颈处的卷积神经网络Ψ的输出,mbottleneck表示在生成器瓶颈处的特征向量;
S452:设softmax层前的输出为一个向量V,vj代表v中第j个元素,则该元素的softmax值为:
Figure FDA0004208582870000034
S453:构建基于softmax的分类器的损失函数为:
Figure FDA0004208582870000035
S46:构建所述生成对抗网络模型的目标函数:
Figure FDA0004208582870000036
S5:根据合成的所述多姿态行人图像进行实验结果分析。
CN201911036294.2A 2019-10-29 2019-10-29 一种基于生成对抗网络的多姿态行人图像合成算法 Active CN110796080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911036294.2A CN110796080B (zh) 2019-10-29 2019-10-29 一种基于生成对抗网络的多姿态行人图像合成算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911036294.2A CN110796080B (zh) 2019-10-29 2019-10-29 一种基于生成对抗网络的多姿态行人图像合成算法

Publications (2)

Publication Number Publication Date
CN110796080A CN110796080A (zh) 2020-02-14
CN110796080B true CN110796080B (zh) 2023-06-16

Family

ID=69441745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911036294.2A Active CN110796080B (zh) 2019-10-29 2019-10-29 一种基于生成对抗网络的多姿态行人图像合成算法

Country Status (1)

Country Link
CN (1) CN110796080B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339867B (zh) * 2020-02-18 2022-05-24 广东工业大学 一种基于生成对抗网络的行人轨迹预测方法
CN111382675B (zh) * 2020-02-24 2024-02-27 江苏大学 一种用于行人识别数据集增强训练的生成对抗网络系统
CN111612906B (zh) * 2020-05-25 2023-04-18 长江大学 一种三维地质模型的生成方法、系统及计算机存储介质
CN111753684B (zh) * 2020-06-11 2022-07-08 昆明理工大学 一种利用目标姿势进行生成的行人重识别方法
CN112149645A (zh) * 2020-11-10 2020-12-29 西北工业大学 基于生成对抗学习和图神经网络的人体姿势关键点识别方法
CN112613411B (zh) * 2020-12-25 2022-05-27 浙江大学 基于生成对抗网络的行人重识别数据集姿态数据增广方法
CN112784783B (zh) 2021-01-28 2023-05-02 武汉大学 基于虚拟样本的行人重识别方法
CN113096055B (zh) * 2021-03-24 2024-03-08 北京达佳互联信息技术有限公司 图像生成模型的训练方法、装置、电子设备及存储介质
CN113081001B (zh) * 2021-04-12 2022-04-01 杭州电子科技大学 一种同步EEG-fMRI脑电信号去BCG伪迹方法
CN113111791B (zh) * 2021-04-16 2024-04-09 深圳市格灵人工智能与机器人研究院有限公司 图像滤镜转换网络训练方法、计算机可读存储介质
CN113408351B (zh) * 2021-05-18 2022-11-29 河南大学 一种基于姿态引导生成对抗网络的行人重识别方法
CN113449679B (zh) * 2021-07-14 2023-02-03 湖南长城科技信息有限公司 一种人体异常行为识别方法和装置
CN113744238B (zh) * 2021-09-01 2023-08-01 南京工业大学 一种建立枪弹痕迹数据库的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325931A (zh) * 2018-08-22 2019-02-12 中北大学 基于生成对抗网络和超分辨率网络的多模态图像融合方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018042388A1 (en) * 2016-09-02 2018-03-08 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
WO2018053340A1 (en) * 2016-09-15 2018-03-22 Twitter, Inc. Super resolution using a generative adversarial network
US10482639B2 (en) * 2017-02-21 2019-11-19 Adobe Inc. Deep high-resolution style synthesis
CN107563493A (zh) * 2017-07-17 2018-01-09 华南理工大学 一种多生成器卷积合成图像的对抗网络算法
US10540578B2 (en) * 2017-12-21 2020-01-21 International Business Machines Corporation Adapting a generative adversarial network to new data sources for image classification
CN108334816B (zh) * 2018-01-15 2021-11-23 桂林电子科技大学 基于轮廓对称约束生成式对抗网络的多姿态人脸识别方法
US10482600B2 (en) * 2018-01-16 2019-11-19 Siemens Healthcare Gmbh Cross-domain image analysis and cross-domain image synthesis using deep image-to-image networks and adversarial networks
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
CN108564119B (zh) * 2018-04-04 2020-06-05 华中科技大学 一种任意姿态行人图片生成方法
CN109493308B (zh) * 2018-11-14 2021-10-26 吉林大学 基于条件多判别生成对抗网络的医疗图像合成与分类方法
CN110232312A (zh) * 2019-04-28 2019-09-13 南京工程学院 一种抗姿态变化的行人重识别方法
CN110135375B (zh) * 2019-05-20 2021-06-01 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110349240A (zh) * 2019-06-26 2019-10-18 华中科技大学 一种无监督下基于姿势转换的行人图片合成方法和系统
CN110321957B (zh) * 2019-07-05 2023-03-24 重庆大学 融合三元组损失和生成对抗网络的多标签图像检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325931A (zh) * 2018-08-22 2019-02-12 中北大学 基于生成对抗网络和超分辨率网络的多模态图像融合方法

Also Published As

Publication number Publication date
CN110796080A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110796080B (zh) 一种基于生成对抗网络的多姿态行人图像合成算法
Li et al. Underwater image enhancement via medium transmission-guided multi-color space embedding
Gurrola-Ramos et al. A residual dense u-net neural network for image denoising
Liu et al. Hard negative generation for identity-disentangled facial expression recognition
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
CN106960202B (zh) 一种基于可见光与红外图像融合的笑脸识别方法
Rafi et al. An Efficient Convolutional Network for Human Pose Estimation.
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
Zhang et al. Robust visual tracking via basis matching
CN107977932A (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
Mallouh et al. Utilizing CNNs and transfer learning of pre-trained models for age range classification from unconstrained face images
CN108932536A (zh) 基于深度神经网络的人脸姿态重建方法
CN112541864A (zh) 一种基于多尺度生成式对抗网络模型的图像修复方法
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
Li et al. Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement
Shiri et al. Identity-preserving face recovery from stylized portraits
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
Chen et al. An improved image enhancement framework based on multiple attention mechanism
Xu et al. Multi-view face synthesis via progressive face flow
Ardino et al. Semantic-guided inpainting network for complex urban scenes manipulation
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
Yang et al. S3Net: A single stream structure for depth guided image relighting
Gong et al. D2TNet: A ConvLSTM network with dual-direction transfer for pan-sharpening
Li et al. Line drawing guided progressive inpainting of mural damages
JP2023082065A (ja) ユーザのバイオメトリック特性を有する画像中の物体を識別して、画像のうちバイオメトリック特性を含む部分を他の部分から分離することにより当該ユーザのidを検証するための方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant