CN111861672A

CN111861672A - 基于多模态的生成式兼容性服装搭配方案生成方法及系统

Info

Publication number: CN111861672A
Application number: CN202010736858.XA
Authority: CN
Inventors: 刘金环; 杜军威; 于旭; 宋雪萌; 马军; 陈竹敏
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30

Abstract

本发明公开了一种基于多模态的生成式兼容性服装搭配方案生成方法及系统，将上衣的视觉特征和文本特征进行多模态融合后得到上衣多模态编码；构建基于多模态增强的互补模板服装生成模型，根据上衣多模态编码得到下衣模板图像；以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数，根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征，构建基于多模态增强的兼容模板服装生成模型；将上述两个模型融合后得到基于多模态的生成式兼容性服装搭配模型，在已有下衣图像集中得到与待搭配上衣匹配的下衣，输出服装搭配方案，实现服装搭配的准确性。

Description

基于多模态的生成式兼容性服装搭配方案生成方法及系统

技术领域

本发明涉及服装搭配方案推荐技术领域，特别是涉及一种基于多模态的生成式兼容性服装搭配方案生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着深度学习技术在表示学习领域取得的显著成功，深度学习技术成为现有兼容性建模方法的主要技术途径，传统的兼容性建模方法通常利用深度神经网络的非线性映射来学习互补时尚单品的潜在兼容空间，并基于各单品在该空间的表示，直接评估单品与单品之间的兼容程度。事实上，互补单品之间的兼容规律，除了通过潜在兼容空间来探索，还可以直接生成单品的互补兼容模板，即通过互补兼容模板刻画单品之间的兼容规律；如给定上衣，在下衣图像集中，选择与上衣兼容的、匹配的下衣，完成最佳的服装搭配方案，然而，发明人发现，上述基于生成式的兼容性服装搭配建模方法仍然存在以下问题：

(1)如何基于单品的多模态数据，即图像和文本描述，利用生成对抗网络设计有效的互补兼容模板生成模型，以准确刻画单品之间的兼容规律；

(2)如何有效地设计端到端的生成式兼容性建模框架，实现多角度，即单品-模板和单品-单品全面的兼容性建模；

(3)由于每个时尚单品可能涉及多种模态，如视觉模态和文本模态，这些模态都可以传达关于单品特征的重要信息，如何有效地融合多种模态以提升兼容性建模性能。

发明内容

为了解决上述问题，本发明提出了一种基于多模态的生成式兼容性服装搭配方案生成方法及系统，通过多模态增强的互补模板服装生成模型，根据上衣多模态特征生成与上衣兼容的下衣模板，以下衣模板作为上衣与下衣搭配的辅助；通过多模态增强的兼容模板服装生成模型，从单品-单品和单品-模板角度综合考量上衣与下衣的兼容性，实现服装搭配的准确性。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于多模态的生成式兼容性服装搭配方案生成方法，包括：

根据上衣图像获取视觉特征，根据上衣文本描述获取文本特征，将视觉特征和文本特征进行多模态融合后得到上衣多模态编码；

构建基于多模态增强的互补模板服装生成模型，根据上衣多模态编码得到下衣模板图像；

以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数，根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征，构建基于多模态增强的兼容模板服装生成模型；

根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型，在已有下衣图像集中得到与待搭配上衣匹配的下衣，输出服装搭配方案。

第二方面，本发明提供一种基于多模态的生成式兼容性服装搭配方案生成系统，包括：

特征提取模块，用于根据上衣图像获取视觉特征，根据上衣文本描述获取文本特征，将视觉特征和文本特征进行多模态融合后得到上衣多模态编码；

模板生成模块，用于构建基于多模态增强的互补模板服装生成模型，根据上衣多模态编码得到下衣模板图像；

兼容性模块，用于以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数，根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征，构建基于多模态增强的兼容模板服装生成模型；

方案输出模块，用于根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型，在已有下衣图像集中得到与待搭配上衣匹配的下衣，输出服装搭配方案。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明通过多模态增强的互补模板服装生成模型对上衣和下衣的潜在兼容规律直接刻画，根据上衣多模态特征生成与上衣兼容的下衣模板，以下衣模板作为上衣与下衣搭配的辅助，捕捉互补单品之间的兼容规律，增强单品与单品之间的兼容性建模效果。

本发明通过多模态增强的兼容模板服装生成模型，从单品-单品和单品-模板角度综合考量上衣与下衣的兼容性，有助于增强时尚单品多模态数据的表示学习能力以及对复杂兼容关系的全面理解和深度建模的潜力，实现服装搭配的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的一种基于多模态的生成式兼容性服装搭配方案生成方法流程图；

图2为本发明实施例1提供的基于多模态增强的互补模板服装生成模型结构示意图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例基于给定单品的多模态数据，生成与之互补且兼容的潜在模板，，如给定上衣，为之搭配下衣，通过该模板捕捉互补单品之间的兼容规律，并将其视为辅助关系桥梁，增强单品与单品之间的兼容关系建模，提高服装搭配效果。如图1所示，本实施例提供一种基于多模态的生成式兼容性服装搭配方案生成方法，包括：

S1：根据上衣图像获取视觉特征，根据上衣文本描述获取文本特征，将视觉特征和文本特征进行多模态融合后得到上衣多模态编码；

S2：构建基于多模态增强的互补模板服装生成模型，根据上衣多模态编码得到下衣模板图像；

S3：以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数，根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征，构建基于多模态增强的兼容模板服装生成模型；

S4：根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型，在已有下衣图像集中得到与待搭配上衣匹配的下衣，输出服装搭配方案。

所述步骤S1中：

S1-1：获取上衣t_i、下衣b_j的相关图像

和文本描述

信息，其中图像为服装的彩色图像，文本为该图像的相关文字描述和类别信息；

S1-2：在条件生成对抗网络CGAN的基础上，设计生成器

和判别器D_B，构建基于多模态增强的互补模板服装生成模型，如图2所示，该模型将给定源域T中的上衣图像

和文本描述

转换到目标域B中的下衣模板图像

S1-3：具体地，该生成器

包含下采样、多模态融合和上采样；以给定上衣t_i为例，下采样网络的主要任务是学习上衣图像

的视觉特征编码

其过程如下：

其中，W_K和b_k为该网络的相关参数，

为ReLU激活函数，K＝6为该网络的层数；取H_K作为上衣的视觉编码，为了促进多模态融合，将H_K作为向量

S1-4：针对文本模态，通过预训练好的word2vector向量将时尚单品中，如上衣的文本描述中每个单词映射为300维的向量；采用TextCNN模型提取文本向量特征；

优选地，本实施例分别使用100个大小为{2,3,4,5}的卷积核提取有效文本特征；得到上衣t_i文本描述

的文本特征编码

S1-5：为了实现视觉特征和文本特征的多模态融合，将视觉编码

和文本编码

串联，采用全连接网络映射融合后的编码如下：

其中，W_p和b_p表示多模态融合网络中的相关参数，σ(.)为激活函数；通过将投影后的特征p_vc∈R^d进行维度变换得到P_vc∈R^w*h*c，即为上衣最终的多模态编码，用于后续上采样层网络的下衣模板生成任务。

所述步骤S2中，在条件生成对抗网络CGAN的基础上，构建基于多模态增强的互补模板服装生成模型，设计具有像素一致性和兼容模板正则化项的互补模板服装生成网络，将给定的上衣多模态信息转换为与之兼容的下衣模板图像；具体地：

S2-1：上采样在将上衣的多模态编码P_vc转换为下衣模板

过程中起着关键的作用，主要包含6个反卷积层；在基于多模态增强的互补模板服装生成模型中，生成器

将源域T中上衣的多模态信息转化为目标域B中的下衣模板

所述步骤S3中，以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数，根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征，构建基于多模态增强的兼容模板服装生成模型，具体地：

S3-1：为了保证训练的稳定性和图像生成的质量，采用最小二乘损失，基于多模态增强的兼容模板服装生成模型的目标函数表示如下：

S3-2：采用像素级L1损失促使生成的下衣模板与给定的上衣相兼容，具体通过最小化下衣模板

和正例的下衣

之间的像素级一致性损失如下：

S3-3：对于单品-单品的兼容性建模，通过时尚单品的隐含表示从而准确地测量它们之间的兼容性；定义下采样网络的第(K-1)层的输出为上衣t_i的视觉表示

其中，m*n*l为该视觉表示的维度；通过同样的方式得到下衣b_j的视觉表示

将上采样网络的第一个反卷积层的输出作为生成下衣模板

的视觉表示

S3-4：为了更好地捕捉单品的显著特征，采用全局平均池化方法将上衣和下衣的视觉编码

转换为全局视觉特征

为了增强非线性的兼容性建模，通过全连接网络将全局视觉特征映射为最终的隐含视觉特征表示；以上衣为例，将

输入下面的网络得到：

其中，

为上衣t_i最终的隐含视觉特征，W_v和h_v为该网络的相关参数，σ(·)为sigmoid激活函数；

S3-5：除视觉信息外，文本信息也可以传达时尚单品的重要特征，如类别和风格等；为了有效地编码文本信息，通过和全局视觉特征同样的映射方式，得到上衣t_i、下衣b_j的最终隐含文本特征为

S3-6：基于以上视觉和文本的隐含表示，对单品-单品的兼容性进行建模如下：

其中，α是权衡参数，用于平衡视觉和文本模态的重要性；

S3-7：进一步考虑生成式的兼容性建模，对于给定的上衣，生成的下衣模板在高级属性上应该与待搭配的下衣相似，因而定义下衣

的高级视觉编码

与生成下衣模板

的高级视觉编码

之间的相似性为单品-模板的兼容性

S3-8：将单品-单品兼容性和单品-模板兼容性相结合，定义上衣t_i与下衣b_j之间的多模态模板增强后的兼容性评分m_ij如下：

其中，β是控制单品-单品兼容性和单品-模板兼容性重要性的非负超参数；

S3-9：一般情况下，可以由时尚专家搭配得到成对的正例上衣-下衣套装，然而，对于未搭配在一起的时尚单品，不能认为它们是不兼容的，它们可能是潜在的或未被发现正例搭配，为了准确的对时尚单品之间的隐含偏好进行建模，采用BPR框架，对上衣和下衣的隐含搭配偏好进行建模，如下：

L_BPR＝-ln(δ(m_ij-m_ik))；

其中，m_ik表示上衣t_i和下衣负例b_k之间的兼容性，且可通过与m_ij相似的计算方式的得到；b_k为随机抽取的下衣，作为负例下衣；该函数的目标是让给定的上衣在兼容性空间的位置更接近于正例的下衣，而远离负例的下衣。

所述步骤S4中，为了提高模型性能，采用端到端的方式，将基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型进行融合，提出基于多模态的生成式兼容性服装搭配模型MGCM，能够同时从单品-单品和辅助的单品-模板角度综合测量时尚单品之间的兼容性，即：

其中，_BPR为上衣和下衣的隐含搭配偏好损失函数，

为生成器损失函数，

为判别器损失函数，L_pixel为像素级一致性损失函数；Θ为模型中的相关参数，γ、δ、μ和ν为非负的超参数来控制模型不同部分的重要性；

在本实施例中，分别通过Adam和SGD优化器来训练以上目标函数L_MGCM，通过训练后的MGCM模型，在已有下衣图像集中，得到上衣在下衣模板辅助下最为搭配的下衣，输出服装搭配方案。

实施例2

本实施例提出一种基于多模态的生成式兼容性服装搭配方案生成系统，包括：

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多模态的生成式兼容性服装搭配方案生成方法，其特征在于，包括：

2.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法，其特征在于，在条件生成对抗网络CGAN的基础上，构建基于多模态增强的互补模板服装生成模型，包括生成器，所述生成器将视觉特征和文本特征串联，采用全连接网络进行映射融合和维度变换后得到上衣多模态编码，将上衣多模态编码转化为下衣模板图像。

3.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法，其特征在于，所述基于多模态增强的兼容模板服装生成模型的目标函数为：

其中，D_B为基于多模态增强的互补模板服装生成模型的判别器；

为上衣图像，

为下衣图像，

为下衣模板图像；

为基于多模态增强的互补模板服装生成模型的生成器。

4.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法，其特征在于，采用全局平均池化方法将上衣图像和已有下衣图像的视觉特征和文本特征转换为全局视觉特征和全局文本特征，通过全连接网络将全局视觉特征映射为隐含视觉特征和隐含文本特征；根据隐含视觉特征和隐含文本特征，对上衣单品和下衣单品的兼容性建模：