CN110210523A

CN110210523A - 一种基于形状图约束的模特穿着衣物图像生成方法及装置

Info

Publication number: CN110210523A
Application number: CN201910394364.5A
Authority: CN
Inventors: 宋雪萌; 林俊宇; 甘甜; 刘萌; 史金婉; 关惟俐
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-09-06
Anticipated expiration: 2039-05-13
Also published as: CN110210523B

Abstract

本公开公开了一种基于形状图约束的模特穿着衣物图像生成方法及装置，方法包括：接收图像数据，进行预处理构建模特衣物数据集，获取衣物纹理；提取模特衣物数据集中的模特‑衣物对，构建模特‑衣物‑形状三元组，训练形状预测器；根据模特衣物数据集中的模特‑衣物对训练纹理渲染器；通过形状预测器对输入的模特图像进行形状预测，将预测结果作为形状约束；纹理渲染器同时接收形状约束和衣物纹理，渲染出最终的衣物图像。

Description

一种基于形状图约束的模特穿着衣物图像生成方法及装置

技术领域

本公开属于智能衣橱的技术领域，涉及一种基于形状图约束的模特穿着衣物图像生成方法及装置。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着时尚产业的蓬勃发展，许多关于时尚的社区网站应运而生，时尚爱好者在这里分享他们的街拍照片。近年来，有许多研究工作围绕街景拍摄模特对应的商品衣物检索展开。现有的技术主要应用深度学习对模特照片进行特征提取，进而对商品库中的衣物产品进行相似度衡量，最终检索出对应的衣物产品。

然而，发明人在研发过程中发现，现有的技术主要应用数据驱动的表示学习方法，依赖于大量的训练数据三元组，其训练出的特征向量缺乏可解释性，无法完全表示原模特图像所具有的特征。

与传统的跨域转移问题相比，从模特照片到其穿着衣物跨越的沟壑是相对更大的，这给生成模型的学习带来了很严峻的挑战；形状对于衣物图片是显著而重要的特征之一，如何把形状这一具有优秀特征表示的约束集成到生成框架来帮助更好的生成是一个具有挑战性的问题；模特照片具有很多噪音，这些噪音会影响生成框架的学习过程，进而降低最终的生成质量。

发明内容

针对现有技术中存在的不足，本公开的一个或多个实施例提供了一种基于形状图约束的模特穿着衣物图像生成方法及装置,基于对抗网络的模特衣服生成框架，利用形状图来进行约束，使该框架理想的生成模特所穿着的衣物图片，使检索模型更好地进行衣物检索的训练。本公开引入形状预测器来获得形状图约束，有效提高了生成衣物图像的质量，使之能够应用于街景模特穿着衣物对应的衣物检索，有效提高检索模型的性能。

根据本公开的一个或多个实施例的一个方面，提供一种基于形状图约束的模特穿着衣物图像生成方法。

一种基于形状图约束的模特穿着衣物图像生成方法，该方法包括：

接收图像数据，进行预处理构建模特衣物数据集，获取衣物纹理；

提取模特衣物数据集中的模特-衣物对，构建模特-衣物-形状三元组，训练形状预测器；

根据模特衣物数据集中的模特-衣物对训练纹理渲染器；

通过形状预测器对输入的模特图像进行形状预测，将预测结果作为形状约束；纹理渲染器同时接收形状约束和衣物纹理，渲染出最终的衣物图像。

进一步地，在该方法中，所述模特衣物数据集中包含衣物-模特对，所述衣物-模特对中一张衣物图像数据对应若干模特图像数据。

进一步地，在该方法中，通过人体解析模型进行衣物纹理解析，获取上身所属的衣物纹理部份。

进一步地，在该方法中，所述形状预测器采用深度学习特征提取算法与自我注意力机制进行模型的构建，具体步骤包括：

采用预训练的深度卷积神经网络获取特征图，并通过平均池化操作进行局部特征提取；

同时采用自我注意力机制通过卷积操作获得权重图，并进行全局特征提取；

将局部特征和全局特征连接，得到最终的特征向量；

构建锚例-正例-负例三元组进行形状预测器的训练，所述形状预测器的损失函数为标准的三元组损失函数。

进一步地，在该方法中，所述纹理渲染器采用成式对抗网络的架构进行模型的构建，具体步骤包括：

根据生成式对抗网络的架构构建一个生成器和两个判别器；

根据所述生成器生成的图像和真实图像分别与两个判别器进行对抗训练；将生成器与两个判别器连结，并锁定住两个判别器的权值，进行生成器的权值更新；

根据感知损失函数加强生成器的学习效果，所述感知损失函数包括特征损失函数和风格损失函数。

进一步地，在该方法中，所述生成器为纹理渲染器，两个所述判别器分别为真假判别器和相关度判别器。

进一步地，在该方法中，所述渲染出最终的衣物图像的具体步骤包括：

进行若干迭代训练，直至形状预测器和纹理渲染器的损失函数收敛，保存二者网络的权重参数；

接收输入的模特图像，形状预测器预测形状图约束，人体解析模型给出分割纹理，经过迭代训练后的纹理渲染器进行最终对应衣物图像的生成。

根据本公开的一个或多个实施例的一个方面，提供一种计算机可读存储介质。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于形状图约束的模特穿着衣物图像生成方法。

根据本公开的一个或多个实施例的一个方面，提供一种终端设备。

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于形状图约束的模特穿着衣物图像生成方法。

根据本公开的一个或多个实施例的一个方面，提供一种基于形状图约束的模特穿着衣物图像生成装置。

一种基于形状图约束的模特穿着衣物图像生成装置，基于所述的一种基于形状图约束的模特穿着衣物图像生成方法，包括：

预处理模块，被配置为接收图像数据，进行预处理构建模特衣物数据集，获取衣物纹理；

形状预测器训练模块，被配置为提取模特衣物数据集中的模特-衣物对，构建模特-衣物-形状三元组，训练形状预测器；

纹理渲染器训练模块，被配置为根据模特衣物数据集中的模特-衣物对训练纹理渲染器；

衣物图像渲染模块，被配置为通过形状预测器对给定的模特图像进行形状预测，将预测结果作为形状约束；纹理渲染器同时接收形状约束和衣物纹理，渲染出最终的衣物图像。

本公开的有益效果：

本公开提供的一种基于形状图约束的模特穿着衣物图像生成方法及装置，将形状图约束引入生成框架，解决了生成模特穿着衣物图像中跨域差距较大、生成效果差的问题。本公开充分利用了形状图约束，有效的提高了模特衣物生成质量；本公开还利用人体解析模型，去除了输入模特图像所具有的噪音信息，使得生成框架能够更有效的进行学习训练；同时本公开生成的衣物图像可以用来替代衣物检索模型训练中的模特衣物图片的地位，从而提高衣物检索模型的性能，达到更好的检索效果。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是根据一个或多个实施例的一种基于形状图约束的模特穿着衣物图像生成方法流程图；

图2是根据一个或多个实施例的一种基于形状图约束的模特穿着衣物图像生成方法具体流程图；

具体实施方式：

下面将结合本公开的一个或多个实施例中的附图，对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合，下面结合附图与实施例对本公开作进一步说明。

专业术语解释：

深度神经网络：深度神经网络是在输入层和输出层之间具有多个隐藏层的人工神经网络。神经网络由许多相互关联的概念化的人造神经元组成，这些人造神经元之间可以互相传递数据，并且根据网络调整相关权重。

表示学习：表示学习是学习特征的技术的集合,将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦，允许计算机在学习使用特征的同时，也学习如何提取特征。

对抗式生成网络：对抗式生成网络是一个通过对抗过程估计生成模型的新生成框架。框架中同时训练两个模型：捕获数据分布的生成模型和估计样本来自训练数据的概率的判别模型，这个框架对应一个最大值集下限的双方对抗游戏。

RMSE：用来描述生成图像与真实图像之间的平均方根误差。

SSIM：用来描述生成图像与真实图像之间的平均结构化相似度。

IS：用来描述生成图像群的多样性和强判别性的指标。

实施例一

本实施例旨在结合服装模型和用户模型，同时分析服装与服装间的兼容性和用户与服装间的兼容性，创建符合人们个性信息的胶囊衣橱。考虑到人们原有衣橱中的服装，为了节省成本，本实施例通过删除原有衣橱中冗余的或者不合适的服装，并添加一些合适的服装来创建一个完整的新衣橱，从而使得这个新衣橱——个性化胶囊衣橱里面的服装能够尽可能多的组合出既好看又适合这个人的套装。

如图1-图2所示，一种基于形状图约束的模特穿着衣物图像生成方法，该方法包括：

S1：通过对时尚社区网站模特与对应衣物的照片进行收集和预处理，构建模特衣物数据集；通过人体解析来获取上身所属的衣物纹理部份。

S2：利用深度学习特征提取算法与自我注意力机制，对形状预测器进行模型的构建。利用模特衣物数据集中的模特-衣物对，构建模特-衣物-形状三元组，对形状预测器进行训练。

S3：利用生成式对抗网络的架构，对纹理渲染器进行模型的构建。提取模特衣物数据集中的模特-衣物对，对纹理渲染器进行训练。

S4：通过形状预测器来对给定的模特图像进行合理的形状预测，并将预测结果作为形状约束，传递给纹理渲染器；同时人体解析模型所解析出的衣物纹理部分也将传递给纹理渲染器，纹理渲染器接收两种输入，并渲染出最终的衣物图像。

所述步骤S1数据集构建的过程还包括：

S11：采用一个公开的衣物模特数据集，该数据集包含衣物-模特对其中的衣物与模特照片是从各大电商网站上收集的，平均1张衣物商品图片有8张对应的模特照片。

S12：通过预训练的人体解析模型Parse(·)来分割出模特人体的各部位，提取出上身所属的衣物纹理部份T_m＝Parse(I_m)。

所述步骤S2形状预测器构建的过程还包括：

S21：形状预测器部分利用了深度学习特征提取算法与自我注意力机制进行建模，使用了预训练的深度卷积神经网络NN(·)获取特征图F_m＝NN(I_m)，并进行局部特征的提取f_l＝AVGPOOL(F_m)，这里AVGPOOL指平均池化操作；同时使用了自我注意力机制来获得权重图wⁱ＝Conv(Conv(F_m))，这里Conv指卷积操作；并进行全局特征的提取最终将局部特征和全局特征连结，得到最终特征向量f_m＝[f_l,f_g]。

S22：构建三元组来进行形状预测器的训练其中比所对应的形状图更接近三元组的挑选规则为根据对应的最接近的形状图来进行正例负例的构造：对于根据对应的形状相似度获取相似度序列并依次选出前K个正例来构建锚例-正例对；同时依次选出后K个负例来构建锚例-正例-负例三元组，最终得到数量为N的三元组。形状预测器的损失函数为标准的三元组损失函数：

其中O为构建的三元组，α是三元组损失函数的边距超参数。

所述步骤S3纹理渲染器构建的过程还包括：

S31：纹理渲染器参照了生成式对抗网络的架构，构建了一个生成器G(·)和两个判别器D(·)来进行对抗训练，其中两个判别器分别为真/假判别器D_rf(·)和相关度判别器D_rv(·)，生成器即为纹理渲染器R(·)。

S32：生成器和真/假判别器、相关度判别器分别进行对抗训练，首先利用生成器生成的图像和真实图像I_c来分别对真/假判别器和相关度判别器进行训练，其中对应的标签为0，I_c对应的标签为1，真/假判别器所对应的的损失函数为而相关度判别器所对应的损失函数则为之后将生成器与真/假判别器和相关度判别器连结，并锁定住两个判别器的权值，进行生成器的权值更新，生成器的对抗损失函数则为该步骤即为一次对抗训练的迭代。

S33：利用感知损失函数，加强生成器的学习效果。感知损失函数包括了特征损失函数和风格损失函数，其中特征损失函数为

而风格损失函数为可以得到感知损失函数为L_per＝λ_fL_fea+λ_sL_sty，其中λ_f和λ_s分别是对应的正则化超参数。最终纹理渲染器的损失函数为L_r＝L_adv+L_per，通过对抗训练，进行若干迭代，直至其损失函数收敛，即可用纹理渲染器输出最终对应衣物的图片。

所述步骤S4衣物生成的过程还包括：

S41：进行若干迭代，直至形状预测器和纹理渲染器的损失函数收敛，保存二者网络的权重参数，即可进行模特对应衣物图片的生成。

S42：训练完毕后，接收输入模特图像I_m，形状预测器预测出合理的形状图约束人体解析模型给出分割纹理T_m，经过迭代训练后的纹理渲染器则可以进行最终对应衣物图像的生成

实施例二

实施例三

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

实施例四

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本公开的有益效果：

本公开提供的一种基于形状图约束的模特穿着衣物图像生成方法及装置，与Pix2PixGAN、CycleGAN、DTGAN相比，本发明在RMSE、SSIM、IS上都能达到有效效果，将SSIM从0.6212提高到了0.9107,将IS从1.5523提高到了1.5610。在街拍模特衣服检索的任务中，将本发明用于辅助传统的检索模型，将MAP指标提升了8.9％。本发明充分利用了形状图约束，有效的提高了模特衣物生成质量；本发明还利用人体解析模型，去除了输入模特图像所具有的噪音信息，使得生成框架能够更有效的进行学习训练；同时本发明生成的衣物图像可以用来替代衣物检索模型训练中的模特衣物图片的地位，从而提高衣物检索模型的性能，达到更好的检索效果。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于形状图约束的模特穿着衣物图像生成方法，其特征在于，该方法包括：

根据模特衣物数据集中的模特-衣物对训练纹理渲染器；

2.如权利要求1所述的一种基于形状图约束的模特穿着衣物图像生成方法，其特征在于，所述模特衣物数据集中包含衣物-模特对，所述衣物-模特对中一张衣物图像数据对应若干模特图像数据。

3.如权利要求1所述的一种基于形状图约束的模特穿着衣物图像生成方法，其特征在于，在该方法中，通过人体解析模型进行衣物纹理解析，获取上身所属的衣物纹理部份。

4.如权利要求1所述的一种基于形状图约束的模特穿着衣物图像生成方法，其特征在于，在该方法中，所述形状预测器采用深度学习特征提取算法与自我注意力机制进行模型的构建，具体步骤包括：

将局部特征和全局特征连接，得到最终的特征向量；

5.如权利要求1所述的一种基于形状图约束的模特穿着衣物图像生成方法，其特征在于，在该方法中，所述纹理渲染器采用成式对抗网络的架构进行模型的构建，具体步骤包括：

根据生成式对抗网络的架构构建一个生成器和两个判别器；

6.如权利要求5所述的一种基于形状图约束的模特穿着衣物图像生成方法，其特征在于，在该方法中，所述生成器为纹理渲染器，两个所述判别器分别为真假判别器和相关度判别器。

7.如权利要求1所述的一种基于形状图约束的模特穿着衣物图像生成方法，其特征在于，在该方法中，所述渲染出最终的衣物图像的具体步骤包括：

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-7任一项所述的一种基于层次标签的跨模态搜索方法。

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-7任一项所述的一种基于层次标签的跨模态搜索方法。

10.一种基于层次标签的跨模态搜索装置，其特征在于，基于如权利要求1-7任一项所述的一种基于层次标签的跨模态搜索方法，包括：