CN114491125A

CN114491125A - 一种基于多模态编码本的跨模态人物服装设计生成方法

Info

Publication number: CN114491125A
Application number: CN202111679605.4A
Authority: CN
Inventors: 沙煜; 张绪杰; 谢震宇; 梁小丹
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-13

Abstract

本发明公开了一种基于多模态编码本的跨模态人物服装设计生成方法，包括步骤如下：将第一目标衣服图像输入图像编码器，编码得到特征向量图，构造一个第一特征编码本；将特征向量图离散化后，从第一特征编码本中选取不同的离散化编码，组合得到离散化后的编码特征图；将编码特征图输入解码器进行解码，解码得到复原后的第二目标衣服图像，并对第二目标衣服图像进行分块损失计算，并通过反向梯度传播，分步更新图像编码器、解码器；利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练，得到富含语义和图像信息的第二特征编码本；通过输入目标图像训练基于注意力机制的神经网络去预测图像中的序列，从第二特征编码本中采样得到序列值，用第二解码器解码序列值输出得到最后的图像。

Description

一种基于多模态编码本的跨模态人物服装设计生成方法

技术领域

本发明涉及虚拟服装生成技术领域，更具体的，涉及一种基于多模态编码本的跨模态人物服装设计生成方法。

背景技术

在服装设计领域，设计过程往往需要人的手工绘图，结合了注意力机制的跨模态服装设计方法可结合多模态信息自动生成设计一系列服装，具有巨大的应用前景和潜在价值。跨模态时装设计，其中服装形象改变基于各种形式的控制信号，如纯文本、草图、局部图像等，有潜力彻底改变时装设计过程。

现有技术主要集中在实现文本引导的图像合成，使服装设计的元素变得单一，这极大地限制了它们的实用性，对允许集成不同控制的框架的需求越来越大。然而，设计一个统一的框架来同时处理多模态信号是不容易的，因为它们固有的表示差异，如草图只能描述物体整体轮廓的简洁图像，部分图像是缺失区域的不完整图像，纯文本不同于两种对应的图像，它通常描述一个特定物体的主要特征。不同模态之间的表征差异使得现有的大多数跨模态综合工作难以对不同模态的控制信号进行集成。

最近，基于注意力机制的神经网络被证明具有强大的能力将不同形式的控制信号统一表示出来。这些方法通常在第一阶段使用矢量量化变分自编码器通过将输入图像压缩成一个低分辨率离散特征映射，然后重构输入图像，学习真实图像中各个视觉部分的局部特征编码本。在第二阶段，将控制信号的向量输入基于注意力机制的神经网络，预测合成图像的序列，从第一阶段的学习得到的特征编码本中采样得到序列值。基于注意力机制的神经网络的全局表现力将不同模态的控制信号统一表示，该方法可以在单个模型内处理任意类型的跨模态控制信号，并生成符合大多数情况下的合理结果。

然而，上述两阶段范式所使用的特征编码本构造机制不可避免地会导致一个问题，即影响模型的泛化。由于特征编码本是通过从训练集中重建图像来学习构造的，因此特征编码本只能包含视觉信息，并代表训练图像各个视觉部分的局部特征。在测试过程中，如果训练集中没有输入控制信号对应的视觉成分，模型将无法预测精确的特征编码，从而无法生成符合控制信号的图像。例如，如果训练集只包含白领T恤，那么训练得到的模型将无法生成蓝领T恤，因为在学习的特征编码本中没有对应这种图像信息的编码。产生这个问题的主要原因是，特征编码本中只编码了图像的局部视觉特征，而忽略了相应的文本信息。这些信息提供了更多的区别性特征，这导致了低级的表示和粗糙的语义。

发明内容

本发明为了解决以上现有技术特征编码本中只编码图像的局部视觉特征，而忽略相应文本信息的问题，提供了一种基于多模态编码本的跨模态人物服装设计生成方法，其使用更细粒度语义的文本信息增强了特征编码本的表达能力，提高了结合多模态信息生成服装的精细度。

为实现上述本发明目的，采用的技术方案如下：

一种基于多模态编码本的跨模态人物服装设计生成方法，所述的方法包括步骤如下：

S1：将第一目标衣服图像输入图像编码器，编码得到特征向量图，构造一个第一特征编码本；将特征向量图离散化后，从第一特征编码本中选取不同的离散化编码，组合得到离散化后的编码特征图；

S2：将编码特征图输入解码器进行解码，解码得到复原后的第二目标衣服图像，并对第二目标衣服图像进行分块损失计算，并通过反向梯度传播，分步更新图像编码器、解码器；

S3：利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练，得到富含语义和图像信息的第二特征编码本；

S4：通过输入目标图像训练基于注意力机制的神经网络，从而去预测目标图像中的序列，从第二特征编码本中采样得到序列值，用第二解码器解码序列值输出得到最后的图像。

优选地，步骤S1，具体如下：

S101：输入第一目标衣物图像，使用多层卷积网络构成的图像编码器，并利用图像编码器进行编码，得到第一目标衣物图像的特征向量图；

S102：对得到特征向量图进行离散化，将特征向量图分块划分，通过计算每块特征向量与第一特征编码本中所有编码的距离值，选取最近的距离值为该块的编码；在第一特征编码本中选取离散化后的编码值，构建一个编码图。

进一步地，步骤S2，具体如下：

S201：构造一个基于多层卷积网络的解码器，将编码特征图输入解码器进行解码，得到复原后的第二目标衣服图像；

S202：将第一目标衣服图像和复原后的第二目标衣服图像分别通过VGG16网络进行提取特征，计算第一目标衣服图像和复原后的第二目标衣服图像之间的视觉损失；

S203：构造一个基于多层卷积网络的鉴别器，对复原后的第二目标衣服图像分块划分，输入鉴别器中分别判断真假，并对输出值进行结合，得到对抗生成网络损失，对损失进行反向梯度传播，分步更新图像编码器、解码器和鉴别器的参数。

再进一步地，步骤S3，具体如下：

S301：在训练阶段，给定图像-文本对

图像I^k被多层卷积网络构成的图像编码器编码为视觉特征

文本T^k被基于注意力机制的神经网络编码为文本特征

S302：计算图像和文本之间的相似度，并由此计算一个训练批次及其文本-图像对应物的图像-文本标记相似度损失，计算得到总损失函数；

S303：根据得到总损失函数进行梯度反向传播，更新特征编码本，得到第二特征编码本。

再进一步地，步骤S302，计算图像和文本之间的相似度：

其中，

I^p为输入的第p张目标衣物图像，T^q为输入的第q段文本，

为图片序列特征值的转置值，

为文本序列特征值，n₁代表图像序列长度；

式(3)为I^p和T^q的相似度计算；

其中，

n₂代表文本序列长度；

式(4)为T^q和I^p的相似度计算；

式中，I^p为输入的第p张目标衣物图像，T^q为输入的第q段文本；

式(5)和式(6)表示一个训练批次及其文本-图像对应物的图像-文本标记相似度损失；

总损失函数计算为：

再进一步地，步骤S4，具体如下：

S401：将输入目标图像的文本、轮廓或部分图像中的一项或多项转换为文本标记序列和/或图像标记序列，其中文本标记序列由基于注意力机制的编码器直接获得；对于图像序列，通过为每种类型的目标图像学习一个特征编码本，并将每个目标图像量化为离散的图像序列；

S402：将不同的文本标记序列和图像标记序列组合在一起，并使用一个特殊的标记[SEP]来表示各模式之间的分离；组合序列形成跨模态序列，并在训练过程中作为基于注意力机制的神经网络的条件输入，对基于注意力机制的神经网络进行训练，使所预测生成的基于各种目标图像的序列的对数似然值最大化，即使训练损失最小化，从第二特征编码本中采样得到序列值，最后输出得到服装设计生成图像。

再进一步地，用于训练基于注意力的神经网络的网络损失函数，表示如下：

p(s∣c)＝∏_ip(s_i∣s_<i,c) (9)

其中，s表示预测的序列，c表示输入的条件序列，p为控制输入序列和输入序列相似的概率值。

一种基于注意力机制的跨模态服装设计生成系统，包括图像编码模块、特征编码模块、解码模块、特征编码本构造模块和序列预测模块；其中，

所述的图像编码模块，用于获取第一目标衣服图像，并进行编码得到特征向量图；

所述的特征编码模块，用于构造一个特征编码本，将特征向量图离散化后，从特征编码本中选取不同的离散化编码，组合得到离散化后的编码特征图；

所述解码模块，用于将编码特征图进行解码，得到输入的目标衣服图像，并对得到目标衣服图像进行分块损失计算；

所述特征编码本构造模块，用于利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练，得到富含语义和图像信息的第二特征编码本；

所述序列预测模块，用于通过输入目标图像训练基于注意力机制的神经网络去预测图像中的序列，从第二特征编码本中采样得到序列值，用第二解码器解码序列值输出得到最后的图像。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现上述的方法的步骤。

本发明的有益效果如下：

本发明通过改进特征编码图的构造过程，利用一个富有表现力的特征编码本来合并细粒度语义文本信息，使特征编码图能够结合文本信息，实现更细粒度的图像生成控制，能够解决由于数据集中缺乏输入控制信号对应的视觉成分，模型无法预测精确的特征编码，从而无法生成符合控制信号的图像的问题，具有较高的效率和灵活性。

附图说明

图1为本发明一种实施例的流程示意图。

图2为本发明提供的一种实施例在不同控制信号组合输入下(如文本、文本加草图、文本加部分图像)的设计生成效果图。

图3为本发明基于注意力机制的跨模态服装设计生成系统提供的在进行用户评价时所采用的问卷示意图。

图4为本发明供的一种实施例和其他方法结合多模态信息(如文本、文本加草图、文本加部分图像)设计生成对应服装效果的对比图。

图5为本发明的一种实施例在进行消融实验时，缺失模块对结果影响的设计生成效果图。

图6为本发明基于注意力机制的跨模态服装设计生成系统提供的在进行进行模型训练时所采用的数据集部分数据采样的数据示意图。

图7为本发明所述的系统提供的一种结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种基于多模态编码本的跨模态人物服装设计生成方法，所述的方法包括步骤如下：

S1：将第一目标衣服图像输入图像编码器，编码得到特征向量图，构造一个第一特征编码本；将特征向量图离散化后，从第一特征编码本中选取不同的离散化编码，组合得到离散化后的编码特征图。

在一个具体的实施例中，步骤S1，具体如下：

S101：输入第一目标衣物图像

使用多层卷积网络构成的图像编码器，并利用图像编码器进行编码，得到第一目标衣物图像的特征向量图

S102：对得到特征向量图进行离散化，将特征向量图分块划分：

其中，

为特征编码图中的编码值，

为划分的特征向量块。

对每个空间位置向量

通过计算每块特征向量与第一特征编码本中所有编码的距离值，选取最近的距离值为该块的编码；在第一特征编码本中选取离散化后的编码值，构建一个编码图。

S2：将编码特征图输入解码器进行解码，解码得到复原后的第二目标衣服图像，并对第二目标衣服图像进行分块损失计算，并通过反向梯度传播，分步更新图像编码器、解码器。

在一个具体的实施例中，步骤S2，具体如下：

S201：构造一个基于多层卷积网络的解码器，将编码特征图输入解码器进行解码，得到复原后的第二目标衣服图像。

所述的解码器的公式表达式如下：

其中，I为输入的第一目标衣服图像，E为图像编码器，q为离散化得到编码图过程，G为解码器，

为复原后的第二目标衣服图像。

S202：将第一目标衣服图像和复原后的第二目标衣服图像分别通过VGG16网络进行提取特征，计算第一目标衣服图像和复原后的第二目标衣服图像之间的视觉损失。

S3：利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练，得到富含语义和图像信息的第二特征编码本。

在一个具体的实施例中，步骤S3，具体如下：

S301：在训练阶段，给定图像-文本对

图像I^k被多层卷积网络构成的图像编码器编码为视觉特征

文本T^k被基于注意力机制的神经网络编码为文本特征

S302：计算图像和文本之间的相似度，并由此计算一个训练批次及其文本-图像对应物的图像-文本标记相似度损失，计算得到总损失函数。

在一个具体的实施例中，步骤S302，计算图像和文本之间的相似度：

其中，

I^p为输入的第p张目标衣物图像，T^q为输入的第q段文本，

为图片序列特征值的转置值，

为文本序列特征值，n₁代表图像序列长度；

式(3)为I^p和T^q的相似度计算；

其中，

n₂代表文本序列长度；

式(4)为T^q和I^p的相似度计算；

总损失函数计算为：

S4：通过输入目标图像训练基于注意力机制的神经网络去预测图像中的序列，从第二特征编码本中采样得到序列值，用第二解码器解码序列值输出得到最后的图像。

在一个具体的实施例中，步骤S4，具体如下：

S401：如图2所示，将输入目标图像的文本、轮廓或部分图像中的一项或多项转换为文本标记序列和图像标记序列，其中文本标记序列由基于注意力机制的编码器直接获得；对于图像序列，通过为每种类型的目标图像学习一个特征编码本，并将每个目标图像量化为离散的图像序列；其中部分图像只是从目标图像中截取一部分图像，所述的轮廓是目标图像的草图。

S402：将不同的文本标记序列和图像标记序列组合在一起，并使用一个特殊的标记[SEP]来表示各模式之间的分离；组合序列形成跨模态序列，并在训练过程中作为基于注意力机制的神经网络的条件输入，对基于注意力机制的神经网络进行训练，使所预测生成的基于各种目标图像的序列的对数似然值最大化，即使训练损失最小化，从第二特征编码本中采样得到序列值，最后输出得到服装设计生成图像最后输出得到服装设计生成图像。

在一个具体的实施例中，用于训练基于注意力的神经网络的网络损失函数，表示如下：

p(s∣c)＝∏_ip(s_i∣s_<i,c) (9)

其中，s表示预测的序列；c表示输入的条件序列，如文本、草图或部分图像经过编码后得到的序列；p为输入序列和输入序列相似的概率值。

在本发明实施例中，使用的多模态服装设计数据集为CM-Fashion数据集，该数据集涵盖了大部分常规服装类别，包括裤子、连衣裙、夹克等。此外，该数据集包含关于性别和目标的信息。每一类服装又分为男装、女装和童装。其中的图像附有详细的文字描述和草图。这些草图是通过Canny边缘检测算法得到的二值图。通过随机裁剪的方法得到输入所需的部分图像。

下面将结合附图来说明本发明的跨模态服装设计生成效果：

以下将分别定性和定量分析本发明的跨模态服装设计生成效果。其中，采用数据集，在该数据集下定量比较了本发明实施例的方法与现有的两种跨模态服装设计生成方法:TediGAN和VQGAN。使用LPIPS、FID、PSNR和HE来评估跨模态服装设计生成效果。数据评价指标结果显示本发明实施例提出的特征编码图改进方法优于其他方法，证明本发明实施例的方法可以结合更细粒度的文本信息，合成更加精细的跨模态服装。本发明实施例还进行了用户评价研究如图3所示，其中针对文本生成图像任务的具体操作是，在某平台上，向平台工作人员展示一段文本和对应的根据文本生成的图像，让工作人员从三种不同生成方法生成的跨模态服装设计生成图片中选择更加真实，保留更多细节的一张图片，77％的用户认为该方法的结果更真实。为了更公平地与现有方法进行比较，本发明实施例在Fashiongen服装设计生成数据集上进一步测试该方法。效果显示本发明实施例的方法仍然在各项指标上达到了最优，如图4所示。

此外，本发明实施例还进行了消融实验，以验证对特征编码本的更新方法的有效性。为了验证文本感知模块的有效性，我们在没有文本感知模块的情况下训练我们的模型。我们比较了这两种模型在三种跨模式综合任务上的综合结果，即文本导向综合、文本草图导向综合和文本部分图像导向综合。如图5所示，没有文本感知模块的特征编码本更新方法无法生成符合文本描述的细粒度细节，而我们完整的模型能够生成相应的细节(例如纹理细节、口袋、按钮等)。

进一步，我们还定量分析了码本大小对没有文本感知模块方法和有文本感知模块方法的影响。在码本大小固定的情况下，FRIES可以得到更低的FID和LPIPS值，证明了文本感知模块对真实图像合成的必要性。比较不同码本大小所训练得到的模型，我们还观察到较大的码本往往导致较低的FID和LPIPS评分。这产生了码本表达性和计算成本之间的权衡，对于我们所采用的方法，将码本大小设置为4096是一个较优的选择。

本实施例提供的一种基于多模态编码本的跨模态人物服装设计生成方法，解决了特征编码本中只编码图像的局部视觉特征，而忽略相应文本信息的问题，使用更细粒度语义的文本信息增强了特征编码本的表达能力，提高了结合多模态信息生成服装的精细度。

实施例2

本发明通过构造一个特征编码本和训练一个基于注意力机制的神经网络实现了对人物服装图像的多种操作，是一种新颖和通用的跨模态服装设计框架，可以执行基于多模态控制信号的服装操作，并利用一个富有表现力的特征编码本来合并细粒度语义文本信息，具有较高的效率和灵活性。

实施例3

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现的方法步骤如下：

实施例4

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现的方法步骤如下：

本发明的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。