CN108564119A - 一种任意姿态行人图片生成方法 - Google Patents
一种任意姿态行人图片生成方法 Download PDFInfo
- Publication number
- CN108564119A CN108564119A CN201810295994.2A CN201810295994A CN108564119A CN 108564119 A CN108564119 A CN 108564119A CN 201810295994 A CN201810295994 A CN 201810295994A CN 108564119 A CN108564119 A CN 108564119A
- Authority
- CN
- China
- Prior art keywords
- posture
- picture
- pedestrian
- image
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于生成对抗网络的任意姿态行人图片生成方法,仅通过将人物图片、图中行人的姿态以及目标迁移姿态的热力图输入生成器网络,即可得到前一位目标姿态的相同人物的图片。由于该方法的生成器中引入了姿态注意力机制,且采用了两个不同的判别器分别进行外貌一致性和姿态一致性的判别,使其能够应对图像变形、几何变换、视角转移等多种复杂情况。并且可以端到端训练。本发明提出的任意姿态的人物图片生成方法在现有技术思路的基础上进行了创新,采用新颖的结构进行网络模型搭建,相较于之前的方法,所合成的图片更加真实、自然,有很强的实际应用价值。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种任意姿态行人图片生成方法。
背景技术
在计算机视觉领域中,可以生成看上去更为现实、自然的图片的算法变得越来越受欢迎,这得益于现实生活中对于高质量合成图像的需求变得越来越高。而人物姿态迁移又是一个在该领域中非常活跃的主题。基于人物的姿态迁移的任意姿态行人图片的生成方法具有很多有价值的应用,例如,将不同姿态的行人图片作为视频的某一帧,以此使用同一个人物的姿态图片序列来合成视频。又如,将任意姿态的人物图片生成方法作为数据扩增的一种手段,该手段在进行人物二次识别等任务中尤为有用。
随着深度神经网络在计算机视觉中的广泛应用,近几年来,各种新颖的生成式网络结构,例如变分自编码网络和生成对抗网络在图像生成领域都取得了一定的成就。然而,生成高质量的任意姿态的行人图片是一个具有挑战性的任务:由于自然场景下的行人图片往往存在着姿态变形、几何变换以及观察视角的不确定性等因素的影响,使用以前的这些网络结构往往不能达到理想的效果。
发明内容
本发明的目的在于提供一种任意姿态行人图片生成方法,该图片生成方法使用姿态注意力迁移网络进行编码,再将图像特征编码送入解码器进行姿态迁移行人图片的生成,生成的行人图像平滑、自然,具有很高的质量。
为实现上述目的,本发明在原有理论基础上进行创新,搭建一种全新的网络结构来解决行人图片的姿态迁移问题,提供了一种任意姿态行人图片生成方法,包括下述步骤:
(1)训练任意姿态行人图片生成网络模型,包括如下子步骤:
(1.1)对原始姿态行人图片数据集中所有行人的姿态进行评估,得到每个原始姿态行人图片对应的姿态热力图谱,由原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱构成标准训练数据集;
(1.2)定义任意姿态行人图片生成方法网络模型,网络模型由生成器和判别器组成;其中:
(1.2.1)生成器有两个组成部分:编码器和解码器。
编码器的组成具体描述如下:
编码器由N层(我们的方法中取N=2)卷积神经网络和姿态注意力迁移网络(Pose-Attentional Transfer Network,简称PAT网络)组成,而姿态注意力迁移网络则由完全相同的T个(T=9)姿态注意力迁移模块(PAT模块)连接成的序列组成。首先的N层卷积神经网络用于将图片数据Pc和姿态数据(Sc,St)预处理为各自的特征图和之后的T个姿态注意力迁移模块引入姿态注意力机制,每一个姿态注意力迁移模块中都有两个由conv1-BN-ReLU-conv2-BN组成的小型神经网络convs,用于分别处理图像特征和姿态特征。另外,在处理姿态特征的流水线上,由于sigmoid函数将输入的值压缩在(0,1)这个范围内,而(0,1)之间的值正好可以表征权重系数,于是我们采用sigmoid函数用于将姿态特征转化为相应的权重Wt。该权重用于增强或抑制图像特征中的特定部分。
解码器的组成部分具体描述如下:
解码器由N层反卷积网络组成,用于完成对图像特征编码的上采样,生成特定姿态图片。
(1.2.2)判别器的组成部分具体描述如下:
判别器由两个部分组成:外貌一致性判别器和姿态一致性判别器,分别用于处理图像特征和姿态特征。两个判别器采用相同的网络结构:在下采样的2层卷积网络之后,后接3个残差模块,并不采用所有的dropout模块,将ReLu激活函数换成负数区域激活值值为0.2的LeakyReLu,最后后接softmax层,用于将得到的特征图谱转换为一致性得分。
(1.3)将标准训练数据集中的原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱输入生成器来生成姿态迁移行人图片,然后将生成的姿态迁移行人图片和标准训练数据集中的目标姿态行人图片分别作为“假图片”和“真图片”输入至多重判别器中,得到对应的一致性得分;设计相应的损失函数,通过对抗训练分别训练生成器和判别器,得到任意姿态行人图片生成网络模型;
输入网络的数据包含:目标姿态行人图片Pt、给定原始姿态行人图片Pc、给定行人图片姿态图谱Sc以及目标姿态图谱St,由这些输入数据生成姿态迁移行人图片Pg。
(1.3.1)生成器由两部分组成:编码器和解码器,主要的步骤为:将数据输入至编码器,得到图像特征编码和姿态特征编码,之后将图像特征编码输入解码器,得到最后生成的姿态迁移行人图片Pg。
编码器由N层卷积层网络和姿态注意力迁移网络组成,用于得到图像特征编码和姿态特征编码;将原始姿态行人图片Pc作为生成器的输入,经过N层卷积神经网络得到了行人图像特征图将原始姿态热力图谱Sc和目标姿态热力图谱St在深度的维度上进行串接得到新的特征图,将该特征图输入N层卷积层得到
将上述步骤得到的特征图输入姿态注意力迁移网络,该网络由T个结构一样的姿态注意力迁移模块组成,在我们的实验中T=9。以第t个姿态注意力迁移模块为例,输入为代表姿态关节的特征和代表行人样貌的特征姿态注意力迁移网络将以上两个特征分别处理,其中先分别将和输入到由conv1-BN-ReLU-conv2-BN组成的小型卷积网络convs中,得到两个输出特征图以及将代表姿态信息的特征图经过sigmoid函数,使其值的范围为0到1,由此得到了姿态注意力权重Wt,该权重引入了姿态注意力机制,行人特征中表征姿态的部分将会得到加强,其余部分则会被抑制。将Wt和行人图像特征图这两个尺寸一样的特征图进行点积操作,得到注意力机制进行局部增强之后的特征图,之后再将该特征图加上由此得到图像特征编码之后将和经过convs卷积网络的姿态特征图在深度方向上串接起来,得到姿态特征编码
一个姿态注意力迁移模块对于图像特征和姿态特征处理完毕后,将该层模块得到的图像特征编码和姿态特征编码送入下一个姿态注意力迁移模块,进行同样的处理,以此不断更新这两个编码,直至最后得到最终的图像特征编码和姿态特征编码将这两个编码输入到解码器网络进行解码。
解码器网络由N层反卷积网络组成;编码器的第T层姿态注意力迁移模块最后输出得到图像特征编码和姿态特征编码这里我们不采用姿态特征编码,将图像特征编码输入解码器网络来进行上采样,将经过两层反卷积网络,最后得到给定行人的姿态迁移行人图片Pg。
(1.3.2)将得到给定行人的姿态迁移行人图片Pg和标准训练数据集中对应目标姿态的目标图像输入判别器,以计算该生成图像与原行人图像的的外貌一致性、与目标姿态的姿态一致性。
其具体实施步骤如下所述:
判别器器由两部分组成:外貌一致性判别器DA,用于判别生成器生成图片Pg和给定的原始姿态行人图片Pc的外貌一致性,姿态一致性判别器DS,用于判别生成器生成图片Pg中的行人姿态和目标姿态St之间的一致性。
将生成的姿态迁移行人图片Pg和给定的原始姿态行人图片Pc在深度方向上串接在一起,并输入外貌一致性判别器DA进行判别,得到外貌相似度评分RA。
同样样将Pg和目标姿态的特征图St在深度方向上进行串接,并输入姿态一致性判别器DS进行判别,得到姿态一致性评分Rs。将这两个评分相乘,得到最后的评分R=RA*Rs。最终评分R即为综合的一致性得分。
(1.3.3)训练采用如下形式的损失函数,该损失函数的意义为,判别器使对于真图像的置信度尽可能大,使假图像的置信度尽可能小:
其中LGAN为对抗损失项,LcombL1为组合L1损失项。
对抗损失函数的数值由分别将真图像Pt和假图像Pg,结合给定原始姿态行人图像Pc、原始姿态特征St一起输入判别器后得到的两个一致性得分RA和RS计算得到,计算公式如下:
上述公式中的DA计算的值即真/假图片的外貌一致性判别得分,DS计算的值即姿态一致性判别得分。如上述公式所述,该损失函数是为了使判别器能够正确判别输入图像是生成器生成的图像Pg(假图像)还是标准训练数据集中的目标姿态图像Pt(真图像)。若该判别器的判别能力越强,则将真图像输入判别器,判别器判定的一致性分数就会更高,即DA(Pt,Pc)和DS(Pt,Pc)会更高,则损失函数的第一项就会更小。将假图像输入判别器,判别器判定的一致性分数就会更低,即DA(Pg,Pc)和DS(Pg,Pc)会更低,则损失函数的第一项就会更小。
组合L1损失计算公式如下:
其中,上述公式中的LL1项为直接将Pg和Pt逐像素相减后求和得到的L1距离。而感知损失函数LperL1项用于使生成的图像看上去更加平滑自然,对于图像人物变形有更好的抗性。计算方法如下:将两张图像Pg和Pt同时输入到已经预训练好的VGG-19网络的某一层(我们取用的是conv1_2层),之后将得到的两个特征图进行逐元素相减后求和,并根据该特征图的尺寸Wp,Hp,Cp将该损失归一化,由此得到感知L1损失项。
使用上述损失函数进行对抗训练的具体过程如下所述:
Pose-GAN的训练过程和典型的生成对抗网络类似,将输入数据Pt和St,Sc输入生成器网络得到生成的目标姿态行人图片Pg后,进行对抗训练:
训练判别器的过程如下所述:真图像输入为行人外貌(Pt,Pc)和姿态(Pt,St),假图像输入为行人外貌(Pg,Pc)和姿态(Pg,St),此时损失函数的对抗损失项为完整的损失函数:
由于该损失函数在输入为真图像时的值会更小,输入为假图像时的值会更大,所以计算出梯度后,使所有判别器网络中的参数减去梯度(梯度下降),使得判别器分辨真假图片的能力变强,以此对判别器进行优化。
训练生成器的过程如下所述:仅输入假图像(Pg,Pc)和姿态(Pg,St),由于没有真图像输入,所以损失函数仅为第二项:
生成器的对抗损失项为判别器的一部分。由于该项损失函数同样在输入为真图像时的值会更小,输入为假图像时的值会更大,所以为了生成足以混淆判别器的假图片,由该损失函数反向传播计算出梯度后,使所有生成器网络中的参数加上梯度(梯度上升),以此对生成器进行优化。
在每个mini-batch数据输入Pose-GAN网络后,交替训练生成器和判别器的网络参数,以进行对抗训练。
相关训练细节如下:训练使用Adam优化器进行梯度下降,参数取β1=0.5,β2=0.999。迭代次数90k次,初始学习率设为2x10-4并在60k次迭代后衰减至0,参数(λ1,λ2)对于标准训练数据集Market-1501和DeepFashion分别设为(10,10)和(1,1)。
(2)利用上述训练好的模型对给定的原始姿态行人图片进行目标姿态人物图片生成,包括如下步骤:
向网络的生成器输入给定原始姿态行人图片以及该行人的姿态原始姿态热力图谱,并输入目标姿态热力图谱,生成器的输出即为合成的姿态迁移行人图片。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)精确度高:该发明针对任务特性区分进行特征设计,创新性地引入姿态注意力机制和多重判别器完成图像生成任务,相比于之前的行人图片生成方法,不仅人物姿态和目标姿态的一致性高,而且在行人外貌上也和给定的图像保持高度的一致;
(2)泛用性强:本发明较之于之前的行人图片生成方法能保持外貌的高度一致性,在肤色、随身物品等方面都能保持较好的一致;
(3)鲁棒性强:本发明可以克服图片中的各种变形、观察视角的变化,保证生成高质量的行人图片。
附图说明
图1是本发明的一种任意姿态行人图片生成方法的网络训练流程图,箭头表示数据的流向,该训练过程是生成器和判别器的对抗训练过程;
图2是本发明实施例中的生成器网络结构示意图;
图3是本发明实施例中的判别器网络结构示意图;
图4是本发明实施例中使用训练好的网络结构进行任意姿态行人图片生成的可视化结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了解决现有技术中的问题,我们发明了一种全新的网络结构,以一种简单而有效的方式来突破以前的理论的种种限制。在生成对抗网络的基础上进行创新:生成器网络引入了姿态注意力机制,使图像特征中的特定区域(对应姿态特征点)得到增强;考虑到单一的判别器同时对图片中的姿态信息和相貌信息进行判别过于困难,于是采用分而治之的方式,使用多重判别器网络,分别对行人图片的外貌一致性和姿态一致性做出判别,然后得出各自的一致性评分。
以下首先就本发明的技术术语进行解释和说明:
生成对抗网络(GAN):最早是在2014年的时候由蒙特利尔大学的AI学者IanGoodfellow提出的。生成式对抗网络是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型和判别模型的互相博弈学习产生相当好的输出。使该网络中两个子模块在互相博弈的学习过程中拟合到最好的结果。
注意力机制:使用了注意力机制的模型在产生输出的时候,还会产生一个“注意力范围”表示接下来输出的时候要重点关注输入特征/序列中的哪些部分,然后根据关注的区域来产生下一个输出,如此往复。
姿态热力图谱:该任意姿态行人图片生成方法中用来表示人体姿态的热力图谱,该图谱由人体姿态评估器对图片中的行人姿态进行评估得到的,该姿态由18个通道组成,按照前后顺序进行排列,每一层通道的图谱都会有一个关键点(其值比周围大)代表人体的关节,将18个通道的热力图谱组合在一起,以此来表示行人的姿信息。
需要说明的是,本发明实施例中以行人图片为例,当然也可以是其他动物或者对象,即能够生成姿态热力图谱的图片都可以。本发明实施例中行人有18个主要关节,所以通道数为18,其他对象的通道可根据对象实际情况确定。
如图1所示,本发明基于一种任意姿态行人图片生成方法包括以下步骤:
(1)训练任意姿态行人图片生成网络模型,包括如下子步骤:
(1.1)为了得到行人的姿态数据,可使用人物姿态评估算法对原始姿态行人图片数据集中所有行人的姿态进行评估,该算法将身体关键部位和个人匹配起来,能准确检测图像中行人的身体关键点,由此得到18个通道的热力图谱。以此来表征能代表人物姿态的18个关节。一张图片中的一个人物对应一个18通道的姿态热力图谱;
由原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱构成标准训练数据集;
(1.2)定义任意姿态行人图片生成方法网络模型,如图2和图3中所示,网络模型具体组成成分为:
所述网络结构由生成器和判别器组成。
(1.2.1)生成器有两个组成部分:编码器和解码器。
编码器的组成部分具体描述如下:
编码器由N层(我们的方法中取N=2,可根据需要确定)卷积网络网络和姿态注意力迁移网络(Pose-Attentional Transfer Network网络,简称PAT网络)组成,而姿态注意力迁移网络则由完全相同的T个(我们的方法中取T=9,可根据需要确定)姿态注意力迁移模块(PAT模块)连接成的序列组成。首先的N层卷积神经网络用于将原始姿态行人图片Pc处理成图像特征图将原始姿态热力图谱Sc和目标姿态热力图谱St处理为姿态特征图之后的T个姿态注意力迁移模块引入姿态注意力机制,每一个姿态注意力迁移模块中都有两个由conv1-BN-ReLU-conv2-BN组成的小型神经网络convs用于分别处理图像特征和姿态特征。另外,在处理姿态特征的流水线上,由于sigmoid函数将输入的值压缩杂(0,1)这个范围内,而(0,1)之间的值正好可以表征权重系数,于是我们采用sigmoid函数用于将姿态特征转化为相应的权重Wt。该权重用于增强或抑制图像特征中的特定部分。
解码器由N层反卷积网络组成,用于完成对图像特征编码的上采样,生成特定姿态图片。
(1.2.2)判别器的组成部分具体描述如下:
判别器由两个部分组成:外貌一致性判别器和姿态一致性判别器,分别处理图像特征和姿态特征。两个判别器采用相同的网络结构:在下采样的2层卷积网络之后,后接3个残差模块,并不采用所有的dropout模块,将ReLu激活函数换成负数区域激活值值为0.2的LeakyReLu,最后后接softmax层,用于将得到的特征图谱转换为一致性得分。
(1.3)将标准训练数据集中的原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱输入生成器来生成姿态迁移行人图片,然后将生成的姿态迁移行人图片和标准训练数据集中的目标姿态行人图片分别作为“假图片”和“真图片”输入至多重判别器中,得到对应的一致性得分;设计相应的损失函数,通过对抗训练分别训练生成器和判别器,得到任意姿态行人图片生成网络模型;
输入网络的数据包含:目标姿态行人图片Pt、给定原始姿态行人图片Pc、给定行人图片姿态图谱Sc以及目标姿态图谱St,由这些输入数据,要生成目标姿态的姿态迁移行人图片Pg。
(1.3.1)生成器由两部分组成:编码器和解码器,主要的步骤为:将数据输入至编码器,得到图像特征编码和姿态特征编码,之后将图像特征编码输入解码器,得到最后生成的姿态迁移行人图片Pg。
编码器由N层卷积层网络和姿态注意力迁移网络组成,用于得到图像特征编码和姿态特征编码;将原始姿态行人图片Pc作为生成器的输入,经过N层卷积神经网络得到了行人图像特征图将原始姿态热力图谱Sc和目标姿态热力图谱St在深度的维度上进行串接得到新的特征图,将该特征图输入N层卷积层得到
将上述步骤得到的特征图输入姿态注意力迁移网络,该姿态注意力迁移网络由T个完全一样的姿态注意力迁移模块组成,在本发明实施例中T=9。在每个姿态注意力迁移模块中,姿态注意力迁移网络将以上两个特征分别处理。以第t个姿态注意力迁移模块为例,输入为代表姿态关节的特征和代表行人样貌的特征姿态注意力迁移网络将以上两个特征分别处理,其中先分别将和输入到由conv1-BN-ReLU-conv2-BN组成的小型卷积网络convs中,得到两个输出特征图 以及将代表姿态信息的特征图经过sigmoid函数,使其值的范围为0到1,由此得到了姿态注意力权重Wt,该权重引入了姿态注意力机制,行人特征中表征姿态的部分将会得到加强,其余部分则会被抑制。将Wt和行人图像特征图这两个尺寸一样的特征图进行点积操作,得到注意力机制进行局部增强之后的特征图,之后再将该特征图加上由此得到图像特征编码之后将和经过convs卷积网络的姿态特征图在深度方向上串接起来,得到姿态特征编码
一个姿态注意力迁移模块对图像特征和姿态特征处理完毕后,将该层模块得到的图像特征编码和姿态特征编码送入下一个姿态注意力迁移模块,进行同样的处理,以此不断更新这两个编码,直至最后得到最终的图像特征编码和姿态特征编码将这两个编码输入到解码器网络进行解码。
解码器网络由N层反卷积网络组成;编码器的第T层姿态注意力迁移模块最后输出得到图像特征编码和姿态特征编码这里我们不采用姿态特征编码,将图像特征编码输入解码器网络来进行上采样,将经过两层反卷积网络,最后得到给定行人的姿态迁移行人图片Pg。
(1.3.2)将得到给定行人的姿态迁移行人图片Pg和标准训练数据集中对应目标姿态的目标图像Pt输入判别器,以计算该生成图像与原行人图像的的外貌一致性、与目标姿态的姿态一致性。
其具体实施步骤如下所述:
判别器器由两部分组成:外貌一致性判别器DA,用于判别生成器生成图片Pg和给定的原始姿态行人图片Pc的外貌一致性,姿态一致性判别器DS,用于判别生成器生成图片Pg中的行人姿态和目标姿态St之间的一致性。将生成的姿态迁移行人图片Pg和给定的原始姿态行人图片Pc在深度方向上串接在一起,并输入外貌一致性判别器DA进行判别,得到外貌相似度评分RA。同样样将Pg和目标姿态的特征图St在深度方向上进行串接,并输入姿态一致性判别器DS进行判别,得到姿态一致性评分Rs。将这两个评分相乘,得到最后的评分R=RA*Rs。最终评分R即为综合的一致性得分。
(1.3.3)训练采用如下形式的损失函数,该损失函数的意义为,判别器使对于真图像的置信度尽可能大,使假图像的置信度尽可能小:
其中LGAN为对抗损失项,LcombL1为组合L1损失项。
对抗损失函数的数值由分别将真图像Pt和假图像Pg,结合给定原始姿态行人图像Pc、原始姿态特征St一起输入判别器后得到的两个一致性得分RA和RS计算得到,计算公式如下:
上述公式中的DA计算的值即真/假图片的外貌一致性判别得分,DS计算的值即姿态一致性判别得分。如上述公式所述,该损失函数是为了使判别器能够正确判别输入图像是生成器生成的图像Pg(假图像)还是标准训练数据集中的目标姿态图像Pt(真图像)。若该判别器的判别能力越强,则将真图像输入判别器,判别器判定的一致性分数就会更高,即DA(Pt,Pc)和DS(Pt,Pc)会更高,则损失函数的第一项就会更小。将假图像输入判别器,判别器判定的一致性分数就会更低,即DA(Pg,Pc)和DS(Pg,Pc)会更低,则损失函数的第一项就会更小。
组合L1损失计算公式如下:
其中,上述公式中的LL1项为直接将Pg和Pt逐像素相减后求和得到的L1距离。而感知损失函数LperL1项用于使生成的图像看上去更加平滑自然,对于图像人物变形有更好的抗性。计算方法如下:将两张图像Pg和Pt同时输入到已经预训练好的VGG-19网络的某一层(我们取用的是conv1_2层),之后将得到的两个特征图进行逐元素相减后求和,并根据该特征图的尺寸Wp,Hp,Cp将该损失归一化,由此得到感知L1损失项。
使用上述损失函数进行对抗训练的具体过程如下所述:
Pose-GAN的训练过程和典型的生成对抗网络类似,将输入数据Pt和St,Sc输入生成器网络得到生成的姿态迁移行人图片Pg后,进行对抗训练:
训练判别器的过程如下所述:真图像输入为行人外貌(Pt,Pc)和姿态(Pt,St),假图像输入为行人外貌(Pg,Pc)和姿态(Pg,St),此时损失函数的对抗损失项为完整的损失函数:
由于该损失函数在输入为真图像时的值会更小,输入为假图像时的值会更大,所以计算出梯度后,使所有判别器网络中的参数减去梯度(梯度下降),使得判别器分辨真假图片的能力变强,以此对判别器进行优化。
训练生成器的过程如下所述:仅输入假图像(Pg,Pc)和姿态(Pg,St),由于没有真图像输入,所以损失函数仅为第二项:
由于该项损失函数同样在输入为真图像时的值会更小,输入为假图像时的值会更大,所以为了生成足以混淆判别器的假图片,计算出梯度后,使所有生成器网络中的参数加上梯度(梯度上升),以此对生成器进行优化。
在每个mini-batch数据输入Pose-GAN网络后,交替训练生成器和判别器的网络参数,以进行对抗训练。
相关训练细节如下:训练使用Adam优化器进行梯度下降,参数取β1=0.5,β2=0.999。迭代次数90k次,初始学习率设为2x10-4并在60k次迭代后衰减至0,参数(λ1,λ2)对于标准训练数据集Market-1501和DeepFashion分别设为(10,10)和(1,1)。
(2)利用上述训练好的模型对给定的原始姿态行人图片进行姿态迁移行人图片生成,包括:
向网络的生成器输入给定原始姿态行人图片及该行人的原始姿态热力图谱,并输入目标姿态热力图谱,生成器的输出即为合成的目标姿态行人图片。
如图4中所示,为本发明使用训练好的网络结构进行任意姿态行人图片生成的可视化结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种任意姿态行人图片生成方法,其特征在于,所述方法包括下述步骤:
(1)训练任意姿态行人图片生成网络模型,包括如下子步骤:
(1.1)对原始姿态行人图片数据集中所有行人的姿态进行评估,得到每个原始姿态行人图片对应的姿态热力图谱,由原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱构成标准训练数据集;
(1.2)定义任意姿态行人图片生成网络模型,所述网络模型由生成器和判别器组成,其中生成器包括编码器和解码器,编码器由N层卷积神经网络和姿态注意力迁移网络组成,解码器由N层反卷积网络组成,用于完成对图像特征编码的上采样生成特定姿态图片;判别器由外貌一致性判别器和姿态一致性判别器组成,分别用于处理图像特征和姿态特征;
(1.3)将标准训练数据集中的原始姿态行人图片以及原始姿态行人图片对应的姿态热力图谱输入生成器来生成姿态迁移行人图片,然后将生成的姿态迁移行人图片和标准训练数据集中的目标姿态行人图片分别作为“假图片”和“真图片”输入至多重判别器中,得到对应的一致性得分;设计相应的损失函数,通过对抗训练分别训练生成器和判别器,得到任意姿态行人图片生成网络模型;
(2)利用上述训练好的网络模型对给定的原始姿态行人图片进行目标姿态人物图片生成:向训练好的网络模型的生成器输入给定原始姿态行人图片以及该行人的姿态热力图谱,并输入目标姿态的热力图谱,生成器的输出即为合成的目标姿态行人图片。
2.如权利要求1所述的任意姿态行人图片生成方法,其特征在于,所述步骤(1.2)中的编码器由N层卷积神经网络和姿态注意力迁移网络组成,姿态注意力迁移网络由完全相同的T个姿态注意力迁移模块连接成的序列组成;N层卷积神经网络用于将原始姿态行人图片Pc处理成图像特征图将原始姿态热力图谱Sc和目标姿态热力图谱St处理为姿态特征图之后的T个姿态注意力迁移模块引入姿态注意力机制,每一个姿态注意力迁移模块中都有两个由conv1-BN-ReLU-conv2-BN组成的小型神经网络convs用于分别处理图像特征和姿态特征。
3.如权利要求1所述的任意姿态行人图片生成方法,其特征在于,在所述姿态注意力迁移模块中采用sigmoid函数转化姿态特征图中的值使其范围为0到1,由此得到了姿态注意力权重Wt。
4.如权利要求1或2所述的任意姿态行人图片生成方法,其特征在于,所述步骤(1.2)中的判别器由两个部分组成:外貌一致性判别器和姿态一致性判别器,分别用于处理图像特征和姿态特征;两个判别器采用相同的网络结构:在下采样的2层卷积网络之后,后接3个残差模块,并不采用所有的dropout模块,将ReLu激活函数换成负数区域激活值值为0.2的LeakyReLu,最后后接softmax层,用于将得到的特征图谱转换为一致性得分。
5.如权利要求1或2所述的任意姿态行人图片生成方法,其特征在于,所述步骤(1.3)中将标准训练数据集中的原始姿态行人图片以及原始姿态行人图片对应的原始姿态热力图谱输入生成器来生成姿态迁移行人图片,具体包括:
将原始姿态行人图片Pc作为生成器的输入,经过N层卷积神经网络得到了行人图像特征图将原始姿态热力图谱Sc和目标姿态热力图谱St在深度的维度上进行串接得到新的特征图,将该特征图输入N层卷积层得到将上述特征图输入姿态注意力迁移网络,姿态注意力迁移网络将以上两个特征分别处理,该姿态注意力迁移网络由T个完全一样的姿态注意力迁移模块组成,在每个姿态注意力迁移模块中,先分别将和输入到由conv1-BN-ReLU-conv2-BN组成的小型卷积网络convs中,得到两个输出特征图以及将代表姿态信息的特征图经过sigmoid函数,使其值的范围为0到1,由此得到了姿态注意力权重Wt;将Wt和行人图像特征图进行点积操作,得到注意力机制进行局部增强之后的特征图,之后再将该特征图加上由此得到图像特征编码之后将和经过convs卷积网络的姿态特征图convs 在深度方向上串接起来,得到姿态特征编码
一个姿态注意力迁移模块对于图像特征和姿态特征处理完毕后,将该层姿态注意力迁移模块得到的图像特征编码和姿态特征编码送入下一个姿态注意力迁移模块,进行同样的处理,以此不断更新这两个编码,直至最后得到最终的图像特征编码和姿态特征编码将这两个编码输入到解码器网络进行解码;
将图像特征编码输入解码器网络来进行上采样,将经过两层反卷积网络,最后得到给定行人的姿态迁移行人图片Pg。
6.如权利要求1或2所述的任意姿态行人图片生成方法,其特征在于,所述步骤(1.3)中将生成的姿态迁移行人图片和标准训练数据集中的目标姿态行人图片分别作为“假图片”和“真图片”输入至多重判别器中,得到对应的一致性得分,具体为:
将生成的姿态迁移行人图片Pg和给定的原始姿态行人图片Pc在深度方向上串接在一起,并输入外貌一致性判别器DA进行判别,得到外貌相似度评分RA;
同样样将Pg和目标姿态的特征图St在深度方向上进行串接,并输入姿态一致性判别器DS进行判别,得到姿态一致性评分Rs。
7.如权利要求1或2所述的任意姿态行人图片生成方法,其特征在于,所述步骤(1.3)中设计相应的损失函数,具体为:
该损失函数的意义为,判别器使真图像的置信度尽可能大,使假图像的置信度尽可能小:其中LGAN为对抗损失项,LcombL1为组合L1损失项。
8.如权利要求7所述的任意姿态行人图片生成方法,其特征在于,在所述对抗损失项中,
判别器的对抗损失项为:
上述公式中的DA计算的值即真/假图片的外貌相似度评分,DS计算的值即姿态一致性得分;该损失函数是为了使判别器能够正确判别输入图像是生成器生成的图像Pg还是标准训练数据集中的目标姿态图像Pt;若该判别器的判别能力越强,则将真图像输入判别器,判别器判定的一致性分数就会更高,即DA(Pt,Pc)和DS(Pt,Pc)会更高,则损失函数的第一项就会更小;将假图像输入判别器,判别器判定的一致性分数就会更低,即DA(Pg,Pc)和DS(Pg,Pc)会更低,则损失函数的第一项就会更小;
生成器的对抗损失项为:
生成器的对抗损失项为判别器的一部分,由于该项损失函数同样在输入为真图像时的值会更小,输入为假图像时的值会更大,所以为了生成足以混淆判别器的假图片,由该损失函数反向传播计算出梯度后,使所有生成器网络中的参数加上梯度,以此对生成器进行优化。
9.如权利要求8所述的任意姿态行人图片生成方法,其特征在于,所述步骤(1.3)中通过对抗训练分别训练生成器和判别器,具体为:
在每个mini-batch数据输入Pose-GAN网络后,交替训练生成器和判别器的网络参数,以进行对抗训练;相关训练细节如下:训练使用Adam优化器进行梯度下降,参数取β1=0.5,β2=0.999,迭代次数90k次,初始学习率设为2x10-4并在60k次迭代后衰减至0,参数(λ1,λ2)对于标准训练数据集Market-1501和DeepFashion分别设为(10,10)和(1,1)。
10.如权利要求1或2所述的任意姿态行人图片生成方法,其特征在于,所述步骤(2)中利用上述训练好的模型对给定的原始姿态行人图片进行姿态迁移行人图片生成,包括如下步骤:
向网络的生成器输入给定行人图像Pt以及该行人的原始姿态热力图谱Sc,并输入目标姿态热力图谱St,首先将原始姿态热力图谱Sc和目标姿态热力图谱St在深度方向上串接,并将姿态特征和图像特征一起输入两层卷积网络,得到姿态特征以及图像特征之后一起输入至由T层姿态注意力迁移机制模块的姿态注意力网络中,得到姿态特征编码以及图像特征编码之后将及图像特征编码输入至解码器网络进行上采样,得到的的输出即为合成的姿态迁移行人图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810295994.2A CN108564119B (zh) | 2018-04-04 | 2018-04-04 | 一种任意姿态行人图片生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810295994.2A CN108564119B (zh) | 2018-04-04 | 2018-04-04 | 一种任意姿态行人图片生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564119A true CN108564119A (zh) | 2018-09-21 |
CN108564119B CN108564119B (zh) | 2020-06-05 |
Family
ID=63534061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810295994.2A Active CN108564119B (zh) | 2018-04-04 | 2018-04-04 | 一种任意姿态行人图片生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564119B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543742A (zh) * | 2018-11-16 | 2019-03-29 | 聚时科技(上海)有限公司 | 一种基于GAN和Self-Attention的图像局部信息迁移方法 |
CN109726669A (zh) * | 2018-12-26 | 2019-05-07 | 浙江捷尚视觉科技股份有限公司 | 基于对抗网络的不同光照条件下行人再识别数据生成方法 |
CN109726659A (zh) * | 2018-12-21 | 2019-05-07 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备和可读介质 |
CN109816048A (zh) * | 2019-02-15 | 2019-05-28 | 聚时科技(上海)有限公司 | 一种基于属性迁移的图像合成方法 |
CN109934116A (zh) * | 2019-02-19 | 2019-06-25 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN109951654A (zh) * | 2019-03-06 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
CN109977847A (zh) * | 2019-03-22 | 2019-07-05 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN110059656A (zh) * | 2019-04-25 | 2019-07-26 | 山东师范大学 | 基于卷积对抗生成神经网络的白细胞分类方法及系统 |
CN110084845A (zh) * | 2019-04-30 | 2019-08-02 | 王智华 | 变形预测方法、装置及计算机可读存储介质 |
CN110136103A (zh) * | 2019-04-24 | 2019-08-16 | 平安科技(深圳)有限公司 | 医学影像解释方法、装置、计算机设备及存储介质 |
CN110135583A (zh) * | 2019-05-23 | 2019-08-16 | 北京地平线机器人技术研发有限公司 | 标注信息的生成方法、标注信息的生成装置和电子设备 |
CN110232312A (zh) * | 2019-04-28 | 2019-09-13 | 南京工程学院 | 一种抗姿态变化的行人重识别方法 |
CN110288609A (zh) * | 2019-05-30 | 2019-09-27 | 南京师范大学 | 一种注意力机制引导的多模态全心脏图像分割方法 |
CN110288532A (zh) * | 2019-07-01 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 生成全身图像的方法、装置、设备及计算机可读存储介质 |
CN110288677A (zh) * | 2019-05-21 | 2019-09-27 | 北京大学 | 一种基于可形变结构的行人图像生成方法和装置 |
CN110345407A (zh) * | 2019-06-20 | 2019-10-18 | 华南理工大学 | 一种基于深度学习的智能矫姿台灯及矫姿方法 |
CN110349240A (zh) * | 2019-06-26 | 2019-10-18 | 华中科技大学 | 一种无监督下基于姿势转换的行人图片合成方法和系统 |
CN110599395A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
CN110599435A (zh) * | 2019-09-04 | 2019-12-20 | 精英数智科技股份有限公司 | 一种图像合成的方法、装置、设备和存储介质 |
CN110796064A (zh) * | 2019-10-25 | 2020-02-14 | 清华大学 | 人体肌肉图像的建立方法、装置、存储介质及电子设备 |
CN110796080A (zh) * | 2019-10-29 | 2020-02-14 | 重庆大学 | 一种基于生成对抗网络的多姿态行人图像合成算法 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
CN111583213A (zh) * | 2020-04-29 | 2020-08-25 | 西安交通大学 | 一种基于深度学习和无参考质量评价的图像生成方法 |
CN111626218A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、设备及存储介质 |
CN111696027A (zh) * | 2020-05-20 | 2020-09-22 | 电子科技大学 | 一种基于适应性注意力机制的多模态的图像风格迁移方法 |
CN111784592A (zh) * | 2020-05-19 | 2020-10-16 | 知昇(上海)人工智能科技有限公司 | 一种基于gan的自动化设计图像生成方法 |
CN112101183A (zh) * | 2020-09-10 | 2020-12-18 | 深圳市商汤科技有限公司 | 车辆识别方法及装置、电子设备及存储介质 |
CN112668655A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 基于生成对抗网络不确定性注意力增强分布外图像检测法 |
US20210334935A1 (en) * | 2018-11-09 | 2021-10-28 | Samsung Electronics Co., Ltd. | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting |
CN113824898A (zh) * | 2020-06-19 | 2021-12-21 | 清华大学 | 一种视频生成方法、装置、电子设备及存储介质 |
WO2021254499A1 (zh) * | 2020-06-19 | 2021-12-23 | 北京灵汐科技有限公司 | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 |
CN113838166A (zh) * | 2021-09-22 | 2021-12-24 | 网易(杭州)网络有限公司 | 图像特征迁移方法、装置、存储介质及终端设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563995A (zh) * | 2017-08-14 | 2018-01-09 | 华南理工大学 | 一种多判别器误差反传的对抗网络方法 |
-
2018
- 2018-04-04 CN CN201810295994.2A patent/CN108564119B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563995A (zh) * | 2017-08-14 | 2018-01-09 | 华南理工大学 | 一种多判别器误差反传的对抗网络方法 |
Non-Patent Citations (2)
Title |
---|
ALIAKSANDR SIAROHIN等: "Deformable GANs for Pose-based Human Image Generation", 《ARXIV》 * |
SHUANG MA等: "DA-GAN:Instance-level Image Translation by Deep Attention Generative Adversarial Networks", 《ARXIV》 * |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11961205B2 (en) * | 2018-11-09 | 2024-04-16 | Samsung Electronics Co., Ltd. | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting |
US20210334935A1 (en) * | 2018-11-09 | 2021-10-28 | Samsung Electronics Co., Ltd. | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting |
CN109543742A (zh) * | 2018-11-16 | 2019-03-29 | 聚时科技(上海)有限公司 | 一种基于GAN和Self-Attention的图像局部信息迁移方法 |
CN109726659A (zh) * | 2018-12-21 | 2019-05-07 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备和可读介质 |
CN109726669B (zh) * | 2018-12-26 | 2020-11-17 | 浙江捷尚视觉科技股份有限公司 | 基于对抗网络的不同光照条件下行人再识别数据生成方法 |
CN109726669A (zh) * | 2018-12-26 | 2019-05-07 | 浙江捷尚视觉科技股份有限公司 | 基于对抗网络的不同光照条件下行人再识别数据生成方法 |
CN109816048A (zh) * | 2019-02-15 | 2019-05-28 | 聚时科技(上海)有限公司 | 一种基于属性迁移的图像合成方法 |
CN109934116A (zh) * | 2019-02-19 | 2019-06-25 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN109934116B (zh) * | 2019-02-19 | 2020-11-24 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
US11356619B2 (en) | 2019-03-06 | 2022-06-07 | Tencent Technology (Shenzhen) Company Limited | Video synthesis method, model training method, device, and storage medium |
CN109951654A (zh) * | 2019-03-06 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
CN109951654B (zh) * | 2019-03-06 | 2022-02-15 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
CN109977847A (zh) * | 2019-03-22 | 2019-07-05 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN109977847B (zh) * | 2019-03-22 | 2021-07-16 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
CN110136103A (zh) * | 2019-04-24 | 2019-08-16 | 平安科技(深圳)有限公司 | 医学影像解释方法、装置、计算机设备及存储介质 |
CN110136103B (zh) * | 2019-04-24 | 2024-05-28 | 平安科技(深圳)有限公司 | 医学影像解释方法、装置、计算机设备及存储介质 |
CN110059656A (zh) * | 2019-04-25 | 2019-07-26 | 山东师范大学 | 基于卷积对抗生成神经网络的白细胞分类方法及系统 |
CN110232312A (zh) * | 2019-04-28 | 2019-09-13 | 南京工程学院 | 一种抗姿态变化的行人重识别方法 |
CN110084845A (zh) * | 2019-04-30 | 2019-08-02 | 王智华 | 变形预测方法、装置及计算机可读存储介质 |
CN110288677A (zh) * | 2019-05-21 | 2019-09-27 | 北京大学 | 一种基于可形变结构的行人图像生成方法和装置 |
CN110135583A (zh) * | 2019-05-23 | 2019-08-16 | 北京地平线机器人技术研发有限公司 | 标注信息的生成方法、标注信息的生成装置和电子设备 |
CN110288609A (zh) * | 2019-05-30 | 2019-09-27 | 南京师范大学 | 一种注意力机制引导的多模态全心脏图像分割方法 |
CN110288609B (zh) * | 2019-05-30 | 2021-06-08 | 南京师范大学 | 一种注意力机制引导的多模态全心脏图像分割方法 |
CN110345407B (zh) * | 2019-06-20 | 2022-01-18 | 华南理工大学 | 一种基于深度学习的智能矫姿台灯及矫姿方法 |
CN110345407A (zh) * | 2019-06-20 | 2019-10-18 | 华南理工大学 | 一种基于深度学习的智能矫姿台灯及矫姿方法 |
CN110349240A (zh) * | 2019-06-26 | 2019-10-18 | 华中科技大学 | 一种无监督下基于姿势转换的行人图片合成方法和系统 |
CN110288532A (zh) * | 2019-07-01 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 生成全身图像的方法、装置、设备及计算机可读存储介质 |
CN110288532B (zh) * | 2019-07-01 | 2023-08-08 | 抖音视界有限公司 | 生成全身图像的方法、装置、设备及计算机可读存储介质 |
CN110599435A (zh) * | 2019-09-04 | 2019-12-20 | 精英数智科技股份有限公司 | 一种图像合成的方法、装置、设备和存储介质 |
CN110599395B (zh) * | 2019-09-17 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
WO2021052375A1 (zh) * | 2019-09-17 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
CN110599395A (zh) * | 2019-09-17 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
CN110796064B (zh) * | 2019-10-25 | 2022-08-23 | 清华大学 | 人体肌肉图像的建立方法、装置、存储介质及电子设备 |
CN110796064A (zh) * | 2019-10-25 | 2020-02-14 | 清华大学 | 人体肌肉图像的建立方法、装置、存储介质及电子设备 |
CN110796080A (zh) * | 2019-10-29 | 2020-02-14 | 重庆大学 | 一种基于生成对抗网络的多姿态行人图像合成算法 |
CN111161200A (zh) * | 2019-12-22 | 2020-05-15 | 天津大学 | 基于注意力机制的人体姿态迁移方法 |
CN111583213B (zh) * | 2020-04-29 | 2022-06-07 | 西安交通大学 | 一种基于深度学习和无参考质量评价的图像生成方法 |
CN111583213A (zh) * | 2020-04-29 | 2020-08-25 | 西安交通大学 | 一种基于深度学习和无参考质量评价的图像生成方法 |
CN111784592A (zh) * | 2020-05-19 | 2020-10-16 | 知昇(上海)人工智能科技有限公司 | 一种基于gan的自动化设计图像生成方法 |
CN111696027B (zh) * | 2020-05-20 | 2023-04-07 | 电子科技大学 | 一种基于适应性注意力机制的多模态的图像风格迁移方法 |
CN111696027A (zh) * | 2020-05-20 | 2020-09-22 | 电子科技大学 | 一种基于适应性注意力机制的多模态的图像风格迁移方法 |
WO2021238595A1 (zh) * | 2020-05-28 | 2021-12-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、设备及存储介质 |
CN111626218B (zh) * | 2020-05-28 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、设备及存储介质 |
CN111626218A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像生成方法、装置、设备及存储介质 |
CN113824898A (zh) * | 2020-06-19 | 2021-12-21 | 清华大学 | 一种视频生成方法、装置、电子设备及存储介质 |
CN113824898B (zh) * | 2020-06-19 | 2022-09-09 | 清华大学 | 一种视频生成方法、装置、电子设备及存储介质 |
WO2021254499A1 (zh) * | 2020-06-19 | 2021-12-23 | 北京灵汐科技有限公司 | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 |
CN112101183A (zh) * | 2020-09-10 | 2020-12-18 | 深圳市商汤科技有限公司 | 车辆识别方法及装置、电子设备及存储介质 |
CN112668655A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 基于生成对抗网络不确定性注意力增强分布外图像检测法 |
CN112668655B (zh) * | 2020-12-30 | 2023-08-29 | 中山大学 | 基于生成对抗网络不确定性注意力增强分布外图像检测法 |
CN113838166B (zh) * | 2021-09-22 | 2023-08-29 | 网易(杭州)网络有限公司 | 图像特征迁移方法、装置、存储介质及终端设备 |
CN113838166A (zh) * | 2021-09-22 | 2021-12-24 | 网易(杭州)网络有限公司 | 图像特征迁移方法、装置、存储介质及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108564119B (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564119A (zh) | 一种任意姿态行人图片生成方法 | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN111325099B (zh) | 一种基于双流时空图卷积神经网络的手语识别方法及系统 | |
CN110060097A (zh) | 基于注意力机制和卷积神经网络的用户行为序列推荐方法 | |
CN111798369B (zh) | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 | |
CN110263912A (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN110419049A (zh) | 房间布局估计方法和技术 | |
CN108921123A (zh) | 一种基于双重数据增强的人脸识别方法 | |
Martínez-González et al. | Efficient convolutional neural networks for depth-based multi-person pose estimation | |
CN111275518A (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
CN108121995A (zh) | 用于识别对象的方法和设备 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN110135249A (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
CN110427890B (zh) | 基于深度级联网络和质心分化编码的多人姿态估计方法 | |
Ha et al. | Deep neural networks using capsule networks and skeleton-based attentions for action recognition | |
CN113688765B (zh) | 一种基于注意力机制的自适应图卷积网络的动作识别方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN113128424A (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
CN114333002A (zh) | 基于图深度学习和人脸三维重建的微表情识别方法 | |
CN114494543A (zh) | 动作生成方法及相关装置、电子设备和存储介质 | |
CN108908353B (zh) | 基于平滑约束逆向机械模型的机器人表情模仿方法及装置 | |
CN117315069A (zh) | 基于图像特征对齐的人体姿态迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |