CN111275518B

CN111275518B - 一种基于混合光流的视频虚拟试穿方法及装置

Info

Publication number: CN111275518B
Application number: CN202010039398.5A
Authority: CN
Inventors: 赖剑煌; 谢震宇; 梁小丹; 董浩业
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-04-21
Anticipated expiration: 2040-01-15
Also published as: CN111275518A

Abstract

本发明公开了一种基于混合光流的视频虚拟试穿方法及装置，该方法包括：步骤S1，根据人体图像获得姿态热图，并对人体图像处理得到只保留头部和下半身区域的人体分割图像，将姿态热图、人体分割图像及对应的衣服图像生成目标姿态下的目标人体语义分割图；步骤S2，对人体图像和表示人体姿态的骨架图分别提取人体SMPL模型，并计算两个SMPL模型间的3D光流图；步骤S3，根据示例衣服图像和目标衣服图像的二进制掩模，利用渐进式修正网络预测两者之间的衣服光流图；步骤S4，根据人体分割图像，衣服图像，目标姿态热图，目标人体语义分割图和上一张合成视频帧，在3D光流图和衣服光流图指导下，利用特征融合网络合成当前试穿视频帧。

Description

一种基于混合光流的视频虚拟试穿方法及装置

技术领域

本发明涉及虚拟现实技术领域，特别是涉及一种基于动态卷积网络的自然场景下人脸素描生成模型及方法。

背景技术

线上虚拟试穿具有很大的商业价值。相比于线下实体店的衣服试穿，虚拟试穿能够大大减少消费者的时间成本以及商家的人力成本。近年来，虚拟试穿技术有了快速的发展。传统的虚拟试穿技术一般是使用计算机图形学的方法建立人体三维模型，在三维模型上渲染衣服的纹理细节。但基于计算机图形学的方法往往使用虚拟的3D模型表示人体，与真实人体存在一定的差异。而且大多数方法是从预先建立好的虚拟衣服库中获取衣服，再将衣服渲染到3D模型上，无法处理虚拟衣服库中不存在的衣服，所以基于计算机图形学的虚拟试穿方法存在不够逼真，泛化性差的缺点。

随着虚拟现实技术的发展，虚拟试穿技术的另一分支，基于计算机视觉的虚拟试穿方法也得到了广泛发展。这一类型的虚拟试穿大致可分为固定姿态的虚拟试穿、多姿态的虚拟试穿以及视频虚拟试穿。固定姿态的虚拟试穿的设定是，给定一张人体图像和衣服图像，模型能够将衣服自然融合到人体身上；多姿态的虚拟试穿的设定是，给定一张人体图像，衣服图像和一个特定姿态，模型能将衣服自然融合到人体身上，同时以指定的姿态呈现给用户；视频虚拟试穿的设定是给定一张人体图像，衣服图像和一段姿态序列，模型能够合成一段人物穿指定衣服以指定姿态序列运动的视频片段。相比于固定姿态虚拟试穿和多姿态虚拟试穿，视频虚拟试穿能够给用户更直观的视觉体验，但同时该技术也更具挑战性。除了要保证衣服与人体在不同姿态下融合得自然，还应该保证视频帧之间的连贯性。现有典型的虚拟试穿方法有FW-VTON(FW-GAN:Flow-navigated Warping GAN for Video VirtualTry-on)，但这种方法存在以下的缺陷：1)衣服特征随着人物的运动可能会发生改变；2)无法保证衣服之外其他人体特征与给定的人体图像保持一致。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于混合光流的视频虚拟试穿方法及装置，以在视频虚拟试穿时考虑衣服变形，人体变形和时序连贯性，从而合成逼真的虚拟试穿视频。

为达上述目的，本发明提出一种基于混合光流的视频虚拟试穿方法，包括如下步骤：

步骤S1，根据人体图像获得表示目标姿态的姿态热图，并对所述人体图像处理得到只保留头部和下半身区域的人体分割图像，将所述姿态热图、人体分割图像以及对应的衣服图像利用生成器网络生成目标姿态下的目标人体语义分割图；

步骤S2，对人体图像和表示人体姿态的人体姿态骨架图，分别提取其各自的人体SMPL模型，并通过3D顶点匹配的方法，计算两个SMPL模型间的3D光流图；

步骤S3，根据示例衣服图像的二进制掩模和目标衣服图像的二进制掩模，利用渐进式修正网络预测示例衣服图像与目标衣服图像之间的衣服光流图；

步骤S4，根据所述人体分割图像，衣服图像，目标姿态热图，目标人体语义分割图和上一张合成视频帧，在3D光流图和衣服光流图的指导下，利用特征融合网络合成当前试穿视频帧。

优选地，步骤S1进一步包括：

步骤S100，对所示人体图像，通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，然后将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的姿态热图；

步骤S101，对于同一张人体图像，使用人体解析器得到该人体图像的人体语义分割图，根据该人体语义分割图，去除人体图像中上衣，手臂，脖子及背景区域，得到只保留头部和下半身的人体分割图像；

步骤S102，将步骤S100获得的姿态热图、步骤S101获得的人体分割图像以及对应的衣服图像拼接起来，一起输进生成器网络，由所述生成器网络生成目标姿态下的目标人体语义分割图。

优选地，步骤S100进一步包括：

步骤S100a，对于所述人体图像，使用人体姿态估计器预测包含18个特征点的姿态图，姿态图上每个特征点都会被转换为1通道的热图，所述热图上以特征点为中心的8*8的区域值为1，其余区域值为0；

步骤S100b，将18个1通道的热图按通道拼接在一起,得到一张18通道编码了人体的姿态信息的姿态热图。

优选地，于步骤S101中，在得到所述人体语义分割图之后，遍历所述人体语义分割图上每个像素，如果像素值为语义分割图中头部或下半身区域的值，则置为1，否则置为0，将得到的二进制掩模与人体图像进行逐像素相乘，得到只保留头部和下半身区域的人体分割图像。

优选地，于步骤S1中，在训练阶段，使用判别器实现模型的对抗训练，所述判别器的输入包括只保留头部和下半身的人体分割图像，衣服图像，姿态热图以及真实的人体语义分割图或合成的人体语义分割图，所述判别器判别输入的人体语义分割图是真实的或合成的。

优选地，步骤S2进一步包括：

步骤S200，利用人体姿态估计器估计出若干关键特征点，并将人体姿态估计器预测到的关键特征点，按照一定的连线规则，将位置相邻的特征点连接起来，得到人体姿态骨架图；

步骤S201，使用预训练的HMR模型提取人体图像的3D模型，即人体图像的SMPL模型；

步骤S202，使用重新训练的姿态HMR模型提取人体姿态骨架图的3D模型，即姿态图的SMPL模型；

步骤S203，将两个SMPL模型分别映射到2D平面，根据两个SMPL模型间3D顶点对应关系，得到2D平面中两张投影图像上像素间的映射关系，从而计算出不同姿态下人体图像的3D光流图。

优选地，于步骤S202中，所述姿态HMR模型的训练是在所述HMR模型的基础上进行修改的，替换HMR模型的输入为人体姿态骨架图，在训练阶段，先使用HMR模型提取数据集中人体图像的SMPL模型，并由SMPL模型得到对应的姿态骨架图，由SMPL模型参数及其对应的姿态骨架图组成训练姿态HMR模型的真实数据，模型训练的损失函数包括预测得到的SMPL参数和真实SMPL参数间的L1损失，以及预测得到SMPL模型对应的姿态骨架图与真实姿态骨架图之间的L1损失。

优选地，步骤S3进一步包括：

步骤S300，将示例衣服图像的二进制掩模和目标衣服图像的二进制掩模分别输进两个编码器进行编码；

步骤S301，将编码后的掩模特征拼接在一起，输进多尺度的光流变形模块，输出变形后的衣服掩模以及可以用来对示例衣服图像进行变形的衣服光流图。

优选地，步骤S4进一步包括：

步骤S400，将人体分割图像输进外观编码器，外观编码器每层的特征图输进一个特征变形模块，在步骤S2得到的3D光流图的指导下对特征图进行变形；

步骤S401，将由步骤S3得到的变形衣服输进衣服编码器，提取衣服编码器每层的特征图；

步骤S402，将人体分割图像输进图像变形模块，在步骤S2得到的3D光流图的指导下对人体分割图像进行变形，并将变形后的人体分割图像，目标姿态热图，目标人体语义分割图和上一张合成的视频帧拼接在一起，输进特征融合生成器，合成最终试穿结果。

为达到上述目的，本发明还提供一种基于混合光流的视频虚拟试穿装置，包括：

目标人体语义分割图生成单元，用于根据人体图像获得表示目标姿态的姿态热图，并对所述人体图像处理得到只保留头部和下半身区域的人体分割图像，将所述姿态热图、人体分割图像以及对应的衣服图像利用生成器网络生成目标姿态下的目标人体语义分割图；

3D光流图计算单元602，用于对人体图像和表示人体姿态的人体姿态骨架图，分别提取其各自的人体SMPL模型，并通过3D顶点匹配的方法，计算两个SMPL模型间的3D光流图；

衣服光流图获取单元，用于根据示例衣服图像的二进制掩模和目标衣服图像的二进制掩模，利用渐进式修正网络预测示例衣服图像与目标衣服图像之间的衣服光流图；

特征融合网络，用于根据所述人体分割图像，衣服图像，目标姿态热图，目标人体语义分割图和上一张合成视频帧，在3D光流图和衣服光流图的指导下，利用特征融合网络合成当前试穿视频帧。

与现有技术相比，本发明一种基于混合光流的视频虚拟试穿方法及装置通过使用3D光流控制人体变形，衣服光流控制衣服变形，显示考虑人体变形，衣服变形和视频连贯性，实现了一种可以保证在不同姿态下衣服与人体融合自然，人体特征保留，且连贯性好的视频虚拟试穿方法。

附图说明

图1为本发明一种基于混合光流的视频虚拟试穿方法的步骤流程图；

图2为本发明具体实施例之基于混合光流的视频虚拟试穿方法的流程图；

图3为本发明具体实施例中步骤S1人体语义分割图生成网络的结构示意图；

图4为本发明具体实施例中步骤S3渐进式修正网络的结构示意图；

图5为本发明具体实施例中步骤S4特征融合网络的结构示意图；

图6为本发明一种基于混合光流的视频虚拟试穿装置的系统架构图；

图7为本发明视频虚拟试穿的结果示意图

图8为本发明和其他方法的试穿效果对比图；

图9为本发明渐进式修正网络消融实验效果对比图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于混合光流的视频虚拟试穿方法的步骤流程图，图2为本发明具体实施例之基于混合光流的视频虚拟试穿方法的流程图。如图1及图2所示，本发明一种基于混合光流的视频虚拟试穿方法，包括如下步骤：

步骤S1，根据人体图像获得表示目标姿态的姿态热图，并对所述人体图像处理得到只保留头部和下半身区域的人体分割图像，将所述姿态热图、人体分割图像以及对应的衣服图像利用生成器网络生成目标姿态下的目标人体语义分割图。

具体地，步骤S1进一步包括：

步骤S100，对一人体图像，通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，在该热图上，除了特征点及其邻域值为1，其他位置值为0，然后将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的姿态热图。

在本发明具体实施例中，每个特征点的邻域是一个以特征点为中心，8*8的正方形区域。具体地说，步骤S100进一步包括：

步骤S100a，给定一张目标人体图像，使用人体姿态估计器预测包含18个特征点的姿态图，姿态图上每个特征点都会被转换为1通道的热图，热图上以特征点为中心的8*8的区域值为1，其余区域值为0。

步骤S100b，将18个1通道的热图按通道拼接在一起,得到一张18通道的姿态热图，即该热图编码了人体的姿态信息。

步骤S101，对于同一张人体图像，使用人体解析器得到该人体图像的人体语义分割图，该人体语义分割图上不同区域对应人体的不同部位。根据该人体语义分割图，去除人体图像中上衣，手臂，脖子及背景区域，得到只保留头部和下半身的人体分割图像。具体来说，得到人体语义分割图之后，遍历语义分割图上每个像素，如果像素值为语义分割图中头部或下半身区域的值，则置为1，否则置为0。将该二进制掩模与人体图像进行逐像素相乘，即可得到只保留头部和下半身区域的人体分割图像。

步骤S102，将步骤S100获得的姿态热图、步骤S101获得的人体分割图像以及对应的衣服图像拼接起来，一起输进生成器网络，由网络生成目标姿态下的目标人体语义分割图。

在本发明具体实施例中，所述人体姿态估计器可使用文章“Realtimemultiperson 2d pose estimation using part affinity fields”所提出的方法，所述人体解析器则可以使用文章“Graphonomy:Universal human parsing via graph transferlearning”所提出的方法，在此不予赘述。

在本发明具体实施例中，如图3所示，在S1的训练阶段，可使用判别器实现模型的对抗训练，其中，判别器的输入包括只保留头部和下半身的人体分割图像，衣服图像，姿态热图以及真实的人体语义分割图或合成的人体语义分割图，判别器判别输入的人体语义分割图是真实的或合成的。

本发明具体实施例中，使用的生成器网络是一个类似Resnet的网络结构，包含4个下采样层，9个残差块和4个上采样层。判别器使用文章“High-resolution imagesynthesis and semantic manipulation with conditional gans”中判别器结构，在此不予赘述。

本发明具体实施例中，使用对抗损失函数和生成的人体语义分割图逐像素交叉熵损失函数来约束系统模型的学习。步骤S1训练阶段的总损失函数为：

L_parsing＝λ_advL_adv+λ_pixelL_pixel,

其中L_adv和λ_pixel分别表示对抗损失和交叉熵损失，λ_adv和λ_pixel表示这两个损失对应的权重，取值分别为1和10。

步骤S2，对一张人体图像和一张表示人体姿态的人体姿态骨架图，分别提取其各自的人体SMPL模型，并通过3D顶点匹配的方法，计算两个SMPL模型间的3D光流图。在本发明具体实施例中，姿态热图和人体姿态骨架图都需要先使用人体姿态估计器估计出人体关键点，再由人体关键点获得，两者可以看作是人体关键点的两种表示形式，具体地，姿态热图为18通道的热图，每个通道编码一个人体特征点，人体姿态骨架图则表示由人体关键点根据一定的连线规则连接得到的3通道rgb图像。

具体地，步骤S2进一步包括：

步骤S200，利用人体姿态估计器估计出18个关键特征点，并将人体姿态估计器预测到的18个特征点，按照一定的连线规则，将位置相邻的特征点连接起来，得到人体姿态骨架图。

步骤S201，使用预训练的HMR模型提取人体图像的3D模型，称之为第一人体SMPL模型；

步骤S202，使用重新训练的姿态HMR模型提取所述人体姿态骨架图的3D模型，称之为第二人体SMPL模型；由于没有目标姿态的人体图像(需要由模型生成)，只有目标姿态图，所以需要训练由人体姿态骨架图预测到的3D模型(即第二人体SMPL模型)，这样源人体图像和目标姿态图像都有对应的3D模型，才可以进一步由两个3D模型计算出光流图。

在本发明的具体实施例中，步骤S202中姿态HMR模型的训练是在原HMR模型的基础上进行修改的。具体做法是替换HMR模型的输入为姿态骨架图，在训练阶段，首先使用原始HMR模型作用于数据集中的人体图像，得到训练数据的SMPL模型(即第一人体SMPL模型)，之后通过渲染算法将3D模型(第一人体SMPL模型)渲染到2D平面的同时即可获得2D人体关键点，再由2D人体关键点得到训练数据中的人体姿态骨架图，由SMPL模型参数及其对应的姿态图组成训练姿态HMR模型的真实数据，模型训练的损失函数包括预测得到的SMPL参数和真实SMPL参数间的L1损失，以及预测得到SMPL模型对应的姿态骨架图与真实姿态骨架图之间的L1损失。需说明的是，SMPL模型出自文献

“SMPL:A Skinned Multi-Person Linear Model”(Loper,Matthew,Mahmood,Naureen,Romero,Javier-《Acm Transactions on Graphics》–2015)，使用的HMR模型出自文献“End-to-end recovery of human shape and pose”(Angjoo Kanazawa,MichaelJ.Black,David W.Jacobs-2018IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR)–2018)，由于这里采用的姿态HMR的网络结构及损失函数均为现有技术，在此不予赘述。

在本发明的具体实施例中，SMPL模型中的3D顶点会投影到2D平面上的某个点，所以不同2D平面上具有相同3D顶点的点之间存在对应关系，由此可以计算出具有对应关系点对之间的映射关系，从而计算出光流图。

步骤S3，根据示例衣服图像的二进制掩模和目标衣服图像的二进制掩模，利用渐进式修正网络预测示例衣服图像与目标衣服图像之间的衣服光流图，其中示例衣服图像为数据集中已有的，而目标衣服图像则是在目标人体图像上通过使用人体语义分割图将衣服区域提取出来。

具体地，步骤S3进一步包括：

在本发明的实施例中，示例衣服图像的二进制掩模直接由示例衣服图像得到。目标衣服图像的二进制掩模则由目标人体语义分割图(由步骤S102输出)将衣服区域提取出来获得。

在本发明的实施例中，两个掩码编码器具有相同的网络结构，具有3个下采样层，下采样层的卷积核个数依次为64，128，256。

步骤S301，将编码后的掩模特征拼接在一起，输进多尺度的光流变形模块，最后网络输出变形后的衣服掩模以及一张可以用来对示例衣服图像进行变形的衣服光流图。

在本发明的实施例中，多尺度的光流变形模块包含三个尺度的变形模块，每个尺度相同的变形模块包含三个光流变形结构。每个光流变形结构的操作如下所示：

其中，F，S，T分别代表预测的光流图，示例衣服二进制掩模特征和目标衣服二进制掩模特征。i，j分别代表尺度索引和相同尺度内光流变形结构的索引。C代表卷积操作，W代表使用光流图F对掩模特征或上一个光流图进行变形的操作。相同尺度下的示例衣服二进制掩模特征相同，而目标衣服二进制掩模特征则在每一个光流变形结构中不断得到修正。在第一个尺度下的第一个掩模特征直接从掩模编码器获得。之后每个尺度的掩模特征和光流图的初试值均有上一尺度相应的结果上采样得到。

在本发明的实施例中，如图4所示，在训练阶段，使用渐进式修正网络得到的衣服光流图对示例衣服图像进行变形，得到变形衣服，使用渐进式修正网络得到的变形后的衣服掩模和真实目标衣服掩模(训练阶段通过目标人体图像获得，即通过使用人体语义分割图将衣服区域提取获得)间的L1损失以及变形衣服和真实目标衣服的感知损失L_perc来约束系统模型的学习。此外，为了使生成的光流图更加平缓，引入了光流图的TV损失。训练阶段的总损失函数为：

L_warping＝λ_L1L1_mask+λ_percL_perc+λ_TVL_TV

其中TV损失出自文章“A duality based approach for realtime tv-l1optical flow.”(Zach C,Pock T,Bischof H.A Duality Based Approach for RealtimeTV-L,1Optical Flow[J].Lecture Notes in Computer Science,2007,4713(5):214-223)，在此不予赘述。

步骤S4，根据所述人体分割图像，衣服图像，目标姿态热图，目标人体语义分割图和上一张合成视频帧，在3D光流图和衣服光流图的指导(即指的是利用衣服光流图对示例衣服进行变形)下，利用特征融合网络合成当前试穿视频帧。

具体地，步骤S4进一步包括：

步骤S400，将人体分割图像输进外观编码器，外观编码器每层的特征图输进一个特征变形模块，在步骤S2得到的3D光流图的指导下对特征图进行变形。

在本发明的实施例中，所述人体分割图像指的是只保留了头部和下半身的人体图像。

步骤S401，将由步骤S3得到的变形衣服输进衣服编码器，提取衣服编码器每层的特征图。

在本发明的实施例中，外观编码器和衣服编码器具有相同的网络结构。具有1个卷积层，卷积核个数为64。之后还有3个下采样层，卷积核个数依次为128，256，512。

步骤S402，将所述人体分割图像输进一个图像变形模块，在步骤S2得到的3D光流图的指导下对所述人体分割图像进行变形，将变形后的人体分割图像，目标姿态热图，目标人体语义分割图和上一张合成的视频帧拼接在一起，输进特征融合生成器，生成器的输出包括粗糙的人体图像，前景背景的融合掩模，衣服的融合掩模，如图5所示，最终试穿结果的表达式为：

其中，

分别表示合成的粗糙人体图像、衣服融合掩模和由步骤S3得到的变形衣服，

I_bg分别表示前景背景融合掩模和背景图像。

在本发明的实施例中，特征融合生成器是一个类似UNet的网络结构。包含1)1个卷积层，卷积核个数为64；2)3个下采样层，卷积核个数依次为128，256，512；3)6个残差块，卷积核个数均为512；4)3个上采样层，卷积核个数依次为256，128，64；5)3个卷积层，卷积核个数依次为3，1，1。

在本发明的实施例中，将外观编码器每一层的变形特征图，衣服编码器每一层的特征图和特征融合生成器中编码器每一层得到的特征图相加之后传递到网络下一层，同时传递给解码器对应的网络层。

在本发明的实施例中，训练阶段使用了视频帧判别器和时序判别器实现对抗训练。视频帧判别器的输入包括目标姿态热图，目标人体语义分割图，当前真实的视频帧或当前合成的试穿视频帧，视频帧判别器判别视频帧是真实的还是合成的。时序判别器的输入包括相邻两张视频帧对应的姿态热图和相邻的真实视频帧或相邻的合成试穿视频帧，时序判别器判别输入的相邻视频帧是否时序一致。这里判别器的结构采用文章“On theeffectiveness of least squares generative adversarial networks”(Xudong Mao,Qing Li,Haoran Xie,Raymond Y.K.Lau,Zhen Wang,Stephen Paul Smolley，IEEEtransactions on pattern analysis and machine intelligence(2018))中判别器的结构，在此不予赘述。

在本发明的实施例中，在训练阶段使用了视频帧对抗损失函数L_{f_adv}和时序对抗损失函数L_{t_adv}。使用了真实视频帧和合成的试穿结果之间的感知损失函数L_perc约束模型学习。为了使模型合成人体脸部区域更逼真，使用了人脸预训练模型SphereFaceNet分别提取真实视频帧和合成试穿结果中人脸区域的特征，使用两个人脸特征间的L₁损失函数L_f来约束模型的学习。最后，为了使网络能合成更好的掩模，对前景背景掩模使用L1损失函数和TV损失函数，对衣服掩模使用L1损失函数。训练阶段的总损失函数为：

L_tryon＝L_{f_adv}+L_{t_adv}+λ_percL_perc+λ_fL_f+L_mask

其中，L_mask包含了前景背景掩模和衣服掩模的三个损失函数。L_perc和λ_f分别取值2.0，5.0。

图6为本发明一种基于混合光流的视频虚拟试穿装置的系统架构图。如图6所示，本发明一种基于混合光流的视频虚拟试穿装置，包括：

目标人体语义分割图生成单元601，用于根据人体图像获得表示目标姿态的姿态热图，并对所述人体图像处理得到只保留头部和下半身区域的人体分割图像，将所述姿态热图、人体分割图像以及对应的衣服图像利用生成器网络生成目标姿态下的目标人体语义分割图。

具体地，目标人体语义分割图生成单元601进一步包括：

姿态热图生成模块，用于对一人体图像，通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，在该热图上，除了特征点及其邻域值为1，其他位置值为0，然后将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的姿态热图。

在本发明具体实施例中，每个特征点的邻域是一个以特征点为中心，8*8的正方形区域。姿态热图生成模块具体用于：

给定一张目标人体图像，使用人体姿态估计器预测包含18个特征点的姿态图，姿态图上每个特征点都会被转换为1通道的热图，热图上以特征点为中心的8*8的区域值为1，其余区域值为0。

将18个1通道的热图按通道拼接在一起,得到一张18通道的姿态热图，即该热图编码了人体的姿态信息。

人体分割图像获取模块，用于对于同一张人体图像，使用人体解析器得到该人体图像的人体语义分割图，该人体语义分割图上不同区域对应人体的不同部位。根据该人体语义分割图，去除人体图像中上衣，手臂，脖子及背景区域，得到只保留头部和下半身的人体分割图像。具体来说，得到人体语义分割图之后，遍历语义分割图上每个像素，如果像素值为语义分割图中头部或下半身区域的值，则置为1，否则置为0。将该二进制掩模与人体图像进行逐像素相乘，即可得到只保留头部和下半身区域的人体分割图像。

生成器网络，用于将姿态热图生成模块获得的姿态热图、人体分割图像获取模块获得的人体分割图像以及对应的衣服图像拼接起来，一起输进生成器网络，由生成器网络生成目标姿态下人体语义分割图。

在本发明具体实施例中，在目标人体语义分割图生成单元601的训练阶段，可使用判别器实现模型的对抗训练，其中，判别器的输入包括只保留头部和下半身的人体分割图像，衣服图像，姿态热图以及真实的人体语义分割图或合成的人体语义分割图，判别器判别输入的人体语义分割图是真实的或合成的。

本发明具体实施例中，使用的生成器网络是一个类似Resnet的网络结构，包含4个下采样层，9个残差块和4个上采样层。由于这里的判别器使用的是现有技术中的判别器结构，在此不予赘述。

L_parsing＝λ_advL_adv+λ_pixelL_pixel,

其中L_adv和L_pixel分别表示对抗损失和交叉熵损失，λ_adv和λ_pixel表示这两个损失对应的权重，取值分别为1和10。

3D光流图计算单元602，用于对一张人体图像和一张表示人体姿态的人体姿态骨架图，分别提取其各自的人体SMPL模型，并通过3D顶点匹配的方法，计算两个SMPL模型间的3D光流图。

具体地，3D光流图计算单元602进一步包括：

人体姿态骨架图提取模块，用于利用人体姿态估计器估计出18个关键特征点，并将人体姿态估计器预测到的18个特征点，按照一定的连线规则，将位置相邻的特征点连接起来，得到人体姿态骨架图。

人体图像3D模型提取模块，用于使用预训练的HMR模型提取人体图像的3D模型，可称之为第一人体SMPL模型；

姿态图3D模型提取模块，用于使用重新训练的姿态HMR模型提取所述人体姿态骨架图的3D模型，可称之为第二人体SMPL模型；本发明中，由于没有目标姿态的人体图像(需要由模型生成)，只有目标姿态图，所以需要训练由人体姿态骨架图预测到的3D模型(即第二人体SMPL模型)，这样源人体图像和目标姿态图像都有对应的3D模型，才可以进一步由两个3D模型计算出光流图。

在本发明的具体实施例中，姿态HMR模型的训练是在原HMR模型的基础上进行修改的。具体做法是替换HMR模型的输入为姿态图，在训练阶段，首先使用原始HMR模型作用于数据集中的人体图像，得到训练数据的SMPL模型(即第一人体SMPL模型)，之后通过渲染算法将3D模型(第一人体SMPL模型)渲染到2D平面的同时即可获得2D人体关键点，再由2D人体关键点得到训练数据中的人体姿态骨架图，由SMPL模型参数及其对应的姿态图组成训练姿态HMR模型的真实数据，模型训练的损失函数包括预测得到的SMPL参数和真实SMPL参数间的L1损失，以及预测得到SMPL模型对应的姿态骨架图与真实姿态骨架图之间的L1损失。

映射模块，用于将两个SMPL模型分别映射到2D平面，根据两个SMPL模型间3D顶点对应关系，得到2D平面中两张投影图像上像素间的映射关系，从而计算出不同姿态下人体图像的3D光流图。

衣服光流图获取单元603，用于根据示例衣服图像的二进制掩模和目标衣服图像的二进制掩模，利用渐进式修正网络预测示例衣服图像与目标衣服图像之间的衣服光流图，其中示例衣服图像为数据集中已有的，而目标衣服图像则是在目标人体图像上通过使用人体语义分割图将衣服区域提取出来。

具体地，衣服光流图获取单元603进一步包括：

编码模块，用于将示例衣服图像的二进制掩模和目标衣服图像的二进制掩模分别输进两个编码器进行编码；

在本发明的实施例中，示例衣服图像的二进制掩模直接由示例衣服图像得到。目标衣服的二进制掩模则由目标人体语义分割图将衣服区域提取出来获得。

光流变形模块，用于将编码后的掩模特征拼接在一起，输进多尺度的光流变形模块，最后网络输出变形后的衣服掩模以及一张可以用来对示例衣服进行变形的衣服光流图。

在本发明的实施例中，在训练阶段，使用渐进式修正网络得到的衣服光流图对示例衣服图像进行变形，得到变形衣服，使用渐进式修正网络得到的变形后的衣服掩模和真实目标衣服掩模间的L1损失以及变形衣服和真实目标衣服的感知损失L_perc来约束系统模型的学习。此外，为了使生成的光流图更加平缓，引入了光流图的TV损失。训练阶段的总损失函数为：

L_warping＝λ_L1L1_mask+λ_percL_perc+λ_TVL_TV

特征融合网络604，用于根据所述人体分割图像，衣服图像，目标姿态热图，目标人体语义分割图和上一张合成视频帧，在3D光流图和衣服光流图的指导下，利用特征融合网络合成当前试穿视频帧。

具体地，特征融合网络604进一步包括：

特征变形模块，用于将人体分割图像输进外观编码器，外观编码器每层的特征图输进一个特征变形模块，在步骤S2得到的3D光流图的指导下对特征图进行变形。

在本发明的实施例中，所述人体分割图像是只保留了头部和下半身的人体图像。

衣服编码器，用于将得到的变形衣服输进衣服编码器，提取衣服编码器每层的特征图。

3D光流图指导变形模块，用于将人体分割图像输进一个图像变形模块，在步骤S2得到的3D光流图的指导下对人体分割图像进行变形，并将变形后的人体分割图像，目标姿态热图，目标人体语义分割图和上一张合成的视频帧拼接在一起，输进特征融合生成器，生成器的输出包括粗糙的人体图像，前景背景的融合掩模，衣服的融合掩模，最终试穿结果的表达式为：

其中，

I_bg分别表示前景背景融合掩模和背景图像。

在本发明的实施例中，训练阶段使用了视频帧判别器和时序判别器实现对抗训练。视频帧判别器的输入包括目标姿态热图，目标人体语义分割图，当前真实的视频帧或当前合成的试穿视频帧，视频帧判别器判别视频帧是真实的还是合成的。时序判别器的输入包括相邻两张视频帧对应的姿态热图和相邻的真实视频帧或相邻的合成试穿视频帧，时序判别器判别输入的相邻视频帧是否时序一致。

L_tryon＝L_{f_adv}+L_{t_adv}+λ_percL_perc+λ_fL_f+L_mask

其中，L_mask包含了前景背景掩模和衣服掩模的三个损失函数。λ_perc和λ_f分别取值2.0，5.0。

实施例

在本发明实施例中，使用的视频虚拟试穿数据集包含791个模特走台步视频，其中训练集包含661个视频，测试集包含130个视频，每个视频的视频帧数目在250到300之间，每个视频都会与一张人体图像和一张衣服图像相对应，人体图像中人物和衣服图像中衣服与视频中人物和衣服相同，在训练阶段，由于需要使用与图像对应视频作为模型训练的真实数据，本发明采用了原始的视频图像对作为训练数据，在测试阶段，为了模拟虚拟试穿的过程，本发明随机打乱视频和图像之间的对应关系，使人体图像和衣服图像与视频中的人物和衣服不一致，图7为本发明视频虚拟试穿的结果示意图。

下面结合附图和表格说明本发明的视频虚拟试穿效果：

以下将定性和定量分析本发明的视频虚拟试穿效果。针对定量指标，本发明采用了改进版的FID作为评判标准。在图像生成领域，FID通常用于衡量生成图像与真实图像之间的相似性。改进版的FID使用视频识别网络来提取视频的特征，不仅可以衡量真实视频帧和合成视频帧之间的相似性，还可以衡量视频的连贯性。在本发明实施例中，将真实视频和合成视频分别切割成许多视频片段，每个视频片段包含10帧视频帧。视频识别网络分别提取所有真实视频片段的特征和合成视频片段的特征，最后根据均值和协方差矩阵计算FID得分。该指标分数越低越好。计算公式为：

其中，μ，∑分别代表均值和协方差，Tr代表矩阵的迹。

此外，本发明还使用用户调查的方式对不同模型做定性评价。具体操作是，在亚马逊AMT平台上，向平台上的工作人员展示一张人体图像，一张示例衣服图像和一段姿态序列，让工作人员从两个视频虚拟试穿结果中选择更加真实逼真，时序更连贯的结果。给定的两个试穿结果来自不同的模型。

表1为不同方法FID结果的对比，最后一行是本发明的FID结果，第二行和第三行是现有的基于图像的虚拟试穿的FID结果，第四行是现有的视频虚拟试穿的FID结果。可以观察，本发明在FID这一指标变现得最好，说明本发明合成的视频更逼真且更加连贯。

表2为本发明和其他方法对比的用户调查结果。与现有视频虚拟试穿技术FW-VTON相比，有83％的用户认为本发明合成的视频更逼真，更连贯。

表1

方法	FID
		CP-VTON	32.35
VITON	30.05
		FW-VTON	6.98
HF-VTON(不使用3D光流图)	10.39
		HF-VTON(不使用衣服光流图)	6.41
HF-VTON(不使用时序判别器)	6.14
		HF-VTON	5.87

表2

对比方法	评价分数
		HF-VTON vs FW-VTON	0.83vs 0.17
HF-VTON vs HF-VTON(不使用3D光流图)	0.77vs 0.23
		HF-VTON vs HF-VTON(不使用衣服光流图)	0.68vs 0.32
HF-VTON vs HF-VTON(不使用时序判别器)	0.66vs 0.34

表2

为了定性说明本发明对视频虚拟试穿任务的有效性，定性比较了本发明试穿效果和现有的视频虚拟试穿技术FW-GAN的试穿效果。图8为本发明和其他方法试穿效果对比的示意图。第1列是给定的人体图像，第2列是给定的示例衣服图像，第3列是某一时刻的姿态图，第4列是现有视频虚拟试穿技术FW-GAN的效果图，最后一列是本发明的效果图。对比第1行到第3行的结果，本发明的方法在保留衣服细节上表现得更好。对比第4行的结果，可以观察到，由于给定的人体图像穿着无袖衣服，导致FW-GAN在手臂区域不能很好生成衣服区域，本发明则不会出现这种情况。对比第5行到第6行的结果，本发明的方法在保留衣服之外人体特征表现得更好。

为了验证本发明不同模块对视频虚拟试穿效果的影响，本发明设计了3组消融实验。第1组消融实验是在训练阶段不使用时序判别器，即不适用时序对抗损失约束模型的学习。第2组消融实验是不引入3D光流对人体图像和人体特征进行变形。具体做法是在步骤S4中，不对外观编码器提取的人体特征做变形操作，而是直接将其与其他特征相加。同时将特征融合生成器输入的变形人体图像删除。第3组消融实验是不引入衣服光流图对示例衣服进行变形。具体做法是在步骤S4中，直接将示例衣服输进衣服编码器。

由表1可以观察到，不使用时序判别器，不使用3D光流图，不使用衣服光流图得模型得到的FID分数依次为6.14，10.39，6.41，均高于本发明模型得到的FID分数。由表2也可以观察到，在用户调查中，与不使用时序判别器模型相比，66％的用户选择本发明得到的结果。与不使用3D光流图模型相比，77％的用户选择本发明得到的结果。与不使用衣服光流的模型相比，68％的用户选择本发明得到的结果。由此说明本发明所设计的三个模块对合成更加逼真的虚拟试穿视频均有帮助。

为了验证本发明所设计的渐进式修正网络各个损失函数对模型的影响，本发明还设计3组消融实验。分别是，不使用感知损失约束模型学习，不使用掩模L1损失约束模型学习，不使用TV损失约束模型学习。图9为不同模型下衣服变形效果的示意图。第1列为示例衣服，第2列为特定的姿态，第3列是真实的变形衣服，第4列为本发明中渐进式修正网络得到的变形结果，第5列到第7列依次为不使用感知损失的模型，不使用掩模L1损失的模型，不使用TV损失模型的变形效果。可以观察到不使用掩模L1损失的模型和不使用TV损失的模型无法得到衣服图像，说明这两个损失函数对模型学习至关重要。对比第4列和第5列的结果，可知，使用感知损失可以更精准处理衣服变形的细节问题，例如使用感知损失之后，衣领变形得更自然。

综上所述，本发明一种基于混合光流的视频虚拟试穿方法及装置通过使用3D光流控制人体变形，衣服光流控制衣服变形，显示考虑人体变形，衣服变形和视频连贯性，实现了一种可以保证在不同姿态下衣服与人体融合自然，人体特征保留，且连贯性好的视频虚拟试穿方法。

与现有技术相比，本发明具有如下优点：

1)在传统FW-VTON中，直接将人体图像，衣服图像和姿态图像输进网络中，让网络学习人体的变形和衣服变形，由于网络需要自己学习如何对人体进行变形，多数情况下，衣服区域外的人体特征无法得到保留。虽然网络得到的粗糙结果会和变形衣服融合得到改进的试穿结果，但直接将示例衣服输进网络会加大网络学习的难度。本发明考虑人体变形和衣服变形，使用3D光流对人体特征变形有助于网络保留人体特征，由于输入网络是变形后的衣服，网络只需学习如果将变形后的衣服和人体融合，同时引入人体语义分割有助于生成更明显的边界。

2)传统FW-VTON中对衣服变形采用TPS变换，但TPS变换只能建模比较简单的几何形变。对于复杂的几何形变，TPS的效果往往不好。本文采用了渐进式修正网络预测变形衣服所需的光流图，可对衣服进行逐像素变形，这样的变形更精准。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于混合光流的视频虚拟试穿方法，包括如下步骤：

步骤S4，根据所述人体分割图像，衣服图像，目标姿态热图，目标人体语义分割图和上一张合成视频帧，在3D光流图和衣服光流图的指导下，利用特征融合网络合成当前试穿视频帧；

步骤S1进一步包括：

步骤S102，将步骤S100获得的姿态热图、步骤S101获得的人体分割图像以及对应的衣服图像拼接起来，一起输进生成器网络，由所述生成器网络生成目标姿态下的目标人体语义分割图；

步骤S100进一步包括：

步骤S100b，将18个1通道的热图按通道拼接在一起, 得到一张18通道编码了人体的姿态信息的姿态热图；

于步骤S101中，在得到所述人体语义分割图之后，遍历所述人体语义分割图上每个像素，如果像素值为语义分割图中头部或下半身区域的值，则置为1，否则置为0，将得到的二进制掩模与人体图像进行逐像素相乘，得到只保留头部和下半身区域的人体分割图像；

步骤S2进一步包括：

2.如权利要求1所述的一种基于混合光流的视频虚拟试穿方法，其特征在于：于步骤S1中，在训练阶段，使用判别器实现模型的对抗训练，所述判别器的输入包括只保留头部和下半身的人体分割图像，衣服图像，姿态热图以及真实的人体语义分割图或合成的人体语义分割图，所述判别器判别输入的人体语义分割图是真实的或合成的。

3.如权利要求2所述的一种基于混合光流的视频虚拟试穿方法，其特征在于：于步骤S202中，所述姿态HMR模型的训练是在所述HMR模型的基础上进行修改的，替换HMR模型的输入为人体姿态骨架图，在训练阶段，先使用所述HMR模型提取数据集中人体图像的SMPL模型，并由SMPL模型得到对应的姿态骨架图，由SMPL模型参数及其对应的姿态骨架图组成训练姿态HMR模型的真实数据，模型训练的损失函数包括预测得到的SMPL参数和真实SMPL参数间的L1损失，以及预测得到SMPL模型对应的姿态骨架图与真实姿态骨架图之间的L1损失。

4.如权利要求2所述的一种基于混合光流的视频虚拟试穿方法，其特征在于，步骤S3进一步包括：

5.如权利要求4所述的一种基于混合光流的视频虚拟试穿方法，其特征在于，步骤S4进一步包括：

6.一种用于实现权利要求1至5任一所述的基于混合光流的视频虚拟试穿方法的视频虚拟试穿装置，包括：