CN113298616A

CN113298616A - 一种基于特征融合的成对服装兼容性预测方法

Info

Publication number: CN113298616A
Application number: CN202110545534.2A
Authority: CN
Inventors: 万贤美; 朱翔
Original assignee: ZHEJIANG INTERNATIONAL STUDIES UNIVERSITY
Current assignee: ZHEJIANG INTERNATIONAL STUDIES UNIVERSITY
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-24

Abstract

本发明提供了一种基于特征融合的成对服装兼容性预测方法，包括：(1)准备服装属性数据集，包含上衣和下装，每件上衣和下装都拥有视觉图像和对应的文本数据；(2)构造正样本对数据集和负样本对数据集；(3)对视觉图像和文本数据进行预处理；(4)构建兼容性预测模块，所述的兼容性打分模块包含TextCNN网络、多层非局部特征融合网络MNLFF和评分模块；(5)将正样本对数据集中正样本对的标签设为1，将负样本对数据集中负样本对的标签设为0，将训练集输入兼容性预测模块进行训练；(6)训练完毕后用验证集进行验证，并进行服装兼容性的预测应用。利用本发明，可以大大提高服装兼容性预测的准确性。

Description

一种基于特征融合的成对服装兼容性预测方法

技术领域

本发明属于智能推荐技术领域，尤其是涉及一种基于特征融合的成对服装兼容性预测方法。

背景技术

如今，随着时尚服装行业的迅猛发展，与时装相关的计算机视觉问题已引起越来越多研究者们的关注。其中一项特别有趣的任务是时尚服装推荐，这项任务是给用户推荐与给定服装搭配合适的时装。

如公开号为CN112508114A的中国专利文献公开了一种智能服装推荐系统及方法。通过数据采集单元采集获取服装搭配图像，并构建参考数据集；通过数据集处理单元对参考数据集中的图像进行预处理，得到标准数据集；通过图像处理单元利用标准数据集对神经网络模型进行训练；通过服装推荐单元接收用户的个性化需求信息、待搭配的服装信息，基于训练好的神经网络模型对待搭配的服装信息是否与用户的个性化需求信息相匹配进行判断；若相匹配，则根据标准数据集与待搭配的服装信息得到推荐信息。

时尚推荐的关键是塑造时尚衣物之间的兼容性。在计算机视觉领域中，服装的高度兼容是指将不同类别的时尚衣物进行合理、美观的搭配，组装成一套完整的服装。

为了获得最高程度的兼容性，它不仅需要全面了解每种时尚类别背后的美学以及不同类别之间的兼容性，而且还需要理解与穿衣行为相关的社会规范和文化标准。但是，普通的用户在面对线上及线下海量的服装时，一时之间会很难挑选出搭配合理的成对服装。

所以，如何设计一个高效的服装搭配网络，来帮助用户找到合适的衣物并组成时尚的服装套装，这是值得我们研究的问题。

现有的兼容性检测技术存在的一些问题：首先，服装具有颜色、纹理等多种属性特征，这些视觉信息可以通过服装图像直观地展示出来，而材质、尺寸等信息可以通过服装的文本数据进行简单的概括描述。但是，传统的服装兼容性检测方法主要是通过视觉图像特征进行兼容性建模，却忽略了文本数据。

其次，计算时装项目之间的兼容性通常涉及颜色，材料，印花，样式和其他属性因素。现有的大多数方法都通过卷积神经网络获得图像的高层特征来表示服装。但是，高级功能并未涵盖时装的所有属性，而一些关键属性(例如颜色和印花)大多反映在低级功能中。

其次，大多数现有的时尚数据集都有大量变形和遮盖的衣服。衣服的变形和覆盖使我们难以提取视觉特征。

发明内容

本发明提供了一种基于特征融合的成对服装兼容性预测方法，可以提高服装兼容性预测的准确性。

一种基于特征融合的成对服装兼容性预测方法，包括以下步骤：

(1)准备服装属性数据集，数据集中的服装包含上衣和下装，每件上衣和下装都拥有视觉图像和对应的文本数据，所述的文本数据包含类别和文本描述说明；

(2)将服装属性数据集中成对的上衣和下装当作正样本对，构成正样本对数据集；然后固定每个上衣不变，用服装属性数据集中相同类别的随机下装替换对应正样本对中的下装，形成负样本对数据集；

将正样本对数据集和负样本对数据集均按比例划分成训练集和验证集；

(3)对视觉图像和对应的文本数据进行预处理，将每一个视觉图像进行裁剪和缩放，将对应的文本数据转换为相应维度的词向量；

(4)构建兼容性预测模块，所述的兼容性打分模块包含TextCNN网络、多层非局部特征融合网络MNLFF和评分模块；

所述的TextCNN网络用于输入词向量后得到服装的文本语义特征；

所述的MNLFF由一个基础的ResNet-18网络、非局部模块Non-local block和特征融合模块组成；用于输入视觉图像后得到服装的视觉图像特征；

所述的评分模块将得到的相应的视觉图像特征和文本语义特征进行级联获得联合特征，通过三个特征变换函数，得到三个特征变换向量z_dot，z_diff，z_sum；将三个变换后的特征z_dot，z_diff，z_sum在通道上进行级联，然后将级联特征输入一个全连接网络，获得兼容性评分数值，然后使用sigmoid函数将其映射至0和1之间，作为成对服装最终的兼容性得分score，0.5以下为不兼容，0.5以上为兼容；

(5)将正样本对数据集中正样本对的标签设为1，将负样本对数据集中负样本对的标签设为0，将训练集输入兼容性预测模块进行训练；

(6)训练完毕后用验证集进行验证，并进行服装兼容性的预测应用。

步骤(2)中，正样本对数据集和负样本对数据集均按9:1的比例划分成训练集和验证集。

步骤(3)中，将每一个视觉图像进行裁剪和缩放，最终的大小为224*224；并使用Word2Vec模型将文本数据转换为128维的词向量。

步骤(4)中，所述的TextCNN网络由一维卷积层、一维池化层和全连接层组成；TextCNN网络的输入是通过预处理得到的一个128维的词向量，经过上述三个操作，最终输出的是一个64维的服装文本语义特征。

步骤(4)中，ResNet-18分为5个层级，在第二至第五层级后面分别插入一个非局部模块Non-local block；

在Non-local block中，假设输入特征图x为C×H×W(特征图宽为W，高为H，通道数为C)，首先对于输入特征图进行θ(x)、

和g(x)三种操作，θ(x)、

和g(x)表示为1×1的卷积操作，分别得到三个大小为C/2×H×W的特征；对于θ(x)的C/2×H×W进行矩阵变换得到大小为HW×C/2的矩阵，与

下的经过矩阵变换得到的C/2×HW的矩阵相乘，得到大小为HW×HW的相似度矩阵；然后g(x)变换后的C/2×HW矩阵与经过SoftMax操作的HW×HW相似度矩阵再进行相乘，得到大小为C/2×HW的特征向量y；接下来，通过1×1的卷积操作δ(x)，将特征向量y进行变换得到大小为C×H×W的新特征，即是经过了non-local加强距离依赖后的特征图y，最后，将加强后的特征图与原始输入的特征作像素加权和得到z，具体公式为：

z＝δ(y)+x

接下来将每一个经过non-local操作的z_i(2≤i≤5)通过一个1*1卷积C₁和4*4卷积C₄进行相互融合，每一次融合的结果记为F_i，其中F₅是整个多层非局部特征融合网络的最终输出的图像特征；由于特征融合模块的起始层级为第二层，它没有前置层级和它融合，所以令F₂＝z₂；具体公式为：

步骤(4)中，三个特征变换向量z_dot，z_diff，z_sum的公式如下：

z_dot(v_t,v_b)＝[v_t1v_b1,v_t2v_b2,…,v_tdv_bd]^T

z_diff(v_t,v_b)＝[(v_t1-v_b1)²,(v_t2-v_b2)²,…,(v_td-v_bd)²]^T

z_sum(v_t,v_b)＝[v_t1+v_b1,v_t2+v_b2,…,v_td+v_bd]^T

式中，v_t表示上衣的联合特征，v_b表示下装的联合特征，d表示v_t和v_b的特征维度。

步骤(4)中，所述评分模块中的全连接网络由两个全连接层fc₁、fc₂和一个激活函数Relu组成。

最终的兼容性得分score的公式为：

score＝sigmoid(fc₂(Relu(fc₁(c(z_dot,z_diff,z_sum)))))。

与现有技术相比，本发明具有以下有益效果：

1、本发明同时采样服装的两种模态数据(视觉图像和文本数据)，这有助于服装信息被充分的挖掘。

2、对于视觉图像，本发明提出了一种基于多层级非局部特征融合的网络框架，以准确提取服装的视觉特征；该框架包括非局部块(Non-Local block)和特征融合模型。具体而言，非局部操作用于解决衣物变形和咬合问题，它用于捕获长距离依赖性，它是指图像上具有一定距离的两个像素之间在各种维度(例如时间维度，空间维度和时空维度)上的关系。这样，甚至可以为变形的服装轻松获得服装的全面语义信息以进行兼容性检测。此外，开发特征融合模型来获取各种服装属性因子，这些属性因子来自于诸如图案和颜色之类的低级特征与诸如样式和类别之类的高级特征。

附图说明

图1为本发明方法的框架示意图；

图2为本发明中TextCNN网络的结构图；

图3为本发明中多层非局部特征融合网络的结构图；

图4为本发明实施例中查询图片为上衣的服装兼容性检测结果示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

1)、数据前期预处理

(1.1)准备服装属性数据集：进行服装兼容性检测的数据集主要是使用山东大学宋教授发表在ACM 2017会议上的论文中所提出的FashionVC数据集，FashionVC是通过在Polyvore上搜寻时尚专家创建的服装来构建，主要有20726套衣服，其中14871个上衣和13663个下装。对于每件服装，数据集中都拥有其相应的视觉图像，类别和文本描述说明。

(1.2)首先进行数据整理：将原始数据集中成对的上衣和下装当作正样本对，然后固定上衣保持不变，用数据集中相同种类的随机服装项目替换正样本对中的下装，形成负样本对数据集。这是因为在现实生活中，时装设计师专注组成兼容的服装，却很少考虑如何构建不兼容的服装。由于像Polyvore中的时尚专家对服装的审美规则有所不同，因此随机组合的服装极有可能不兼容，恰好可以满足构建负样本对的需求。对于正样本对和负样本对，我们都以9：1的比例划分训练集和验证集。

(1.3)文本数据的预处理：图1为网络的整体框架，从图中看出在这个方法中，除了用到服装的视觉图像，还考虑了服装的文本数据，即类别信息和文本描述说明，需要在文本送入模型之前，先进行一些简单的预处理。将所有图像的文本数据整合在一起，然后使用gensim包中的已有的Word2Vec模型进行训练，用于将每一个图片的文本数据转换为相应维度的词向量，方便后期网络中的使用。在原始的Word2Vec中输出的词向量的大小是100维，我们重新调整维数大小-128，并重新进行训练，获得一个新的Word2Vec模型。

(1.4)定义一个ImageLoader类来处理服装图像和文本数据，对于成对的服装，我们对图像数据进行剪裁和缩放的操作，最终的大小为224*224，对于文本说明，我们将它们输入到1.3中所说的Word2Vec中，获得一个128维的词向量。如果这个服装对是正样本，则该服装对的标签为1，表示这对服装之间相互兼容，反之，如果是负样本，则标签为0，表示服装对之间不兼容。

2)、TextCNN处理词向量：构建一个简单的TextCNN模型，由一维卷积层、一维池化层和全连接层组成。在卷积层中，通过不同大小的卷积核对文本数据的二维矩阵进行卷积操作。每一次的卷积操作都相当于一次特征向量的提取，通过定义不同大小的卷积核，就可以学习到文本数据的多种相关特征，从而能够构成卷积层的输出。在池化层中，通过使用最大池化对从卷积层产生的特征向量进行最大值筛选，提取出其主要的特征，然后将这些特征拼接起来构成特征表示。这使得不同长度的句子通过池化操作都可以得到一个定长的特征向量。最后，通过全连接层将从池化层中获得的特征进行拼接从而构成文本的特征表示。TextCNN网络输入是通过预处理得到的一个128维的词向量，经过上述三个操作，最终输出的是一个64维的服装文本特征。TextCNN网络的结构如图2所示。

3)、构造多层非局部特征融合网络来提取视觉图像特征

(3.1)我们设计了一种基于多层级非局部特征融合的网络框架，即Multi-layerNon-Local Feature Fusion framework，下面简称MNLFF。MNLFF是由一个基础的ResNet-18网络、非局部模块(Non-local block)和特征融合模块组成。多层非局部特征融合网络框架如图3所示

(3.2)ResNet-18可以分为5个层级，我们在第二至第五层级后面分别插入一个Non-local block，非局部模块在提取某处特征时可以利用其周围点的信息，这个“周围”既可以是时间维度的，也可以是空间维度的。与通过更深的网络增大感受野相比，非局部模块可以更加容易的提升网络对全局内容的理解。在Non-local block中，假设输入特征图x为C×H×W，首先采用1*1卷积操作分别进行θ(x)、

和g(x)的线性映射，分别得到嵌入空间下的C/2×H×W的特征；对于θ(x)的C/2×H×W进行变换得到HW×C/2与

下的经过变换得到的C/2×HW矩阵相乘得到HW×HW相似度矩阵；然后g(x)变换后的C/2×HW矩阵与经过SoftMax操作的HW×HW相似度矩阵再进行相乘得到C/2×HW响应，接下来，再通过1*1卷积的δ(x)经转换得到C×H×W，即是经过了non-local加强距离依赖后的特征图y，最后，将加强后的特征图与原始输入的特征作像素加权和得到z。具体操作如下所示：

z＝δ(y)+x.

(3.3)接下来将每一个经过non-local操作的z_i(2≤i≤5)通过一个1*1卷积(C₁)和4*4卷积(C₄)进行相互融合，每一次融合的结果记为F_i，其中F₅是整个多层非局部特征融合网络的最终输出的图像特征。由于特征融合模块的起始层级为第二层，并没有前置层级和它融合，所以我们令F₂＝z₂。具体操作如下所示：

4)、兼容性检测

(4.1)整个网络的输入是成对服装，即上衣(top)和下装(bottom)。根据前文所说的操作，我们分别输入上衣和下装的图像和文本，得到相应的视觉图像特征u_t(u_b)和文本语义特征T_t(T_b)，将属于同一件服装的视觉图像特征和文本语义特征进行级联获得联合特征v_t(v_b)，然后通过遵循以下对应的三个特征变换函数，我们得到三个特征变换向量z_dot，z_diff，z_sum：

z_dot(v_t,v_b)＝[v_t1v_b1,v_t2v_b2,…,v_tdv_bd]^T,

z_diff(v_t,v_b)＝[(v_t1-v_b1)²,(v_t2-v_b2)²,…,(v_td-v_bd)²]^T,

z_sum(v_t,v_b)＝[v_t1+v_b1,v_t2+v_b2,…,v_td+v_bd]^T.

(4.2)接下来将三个变换后的特征z_dot，z_diff，z_sum在通道上进行级联(c)，然后将级联特征输入一个全连接网络(由两个全连接层(fc₁,fc₂)和一个激活函数Relu组成)，获得兼容性评分数值，然后使用sigmoid函数将其映射至0和1之间，作为成对服装最终的兼容性得分score，0.5以下为不兼容，0.5以上为兼容。当输入的查询服装为上衣时，服装的兼容性检测的结果示意图如图4所示。

score＝sigmoid(fc₂(Relu(fc₁(c(z_dot,z_diff,z_sum)))))。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征融合的成对服装兼容性预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于特征融合的成对服装兼容性预测方法，其特征在于，步骤(2)中，正样本对数据集和负样本对数据集均按9:1的比例划分成训练集和验证集。

3.根据权利要求1所述的基于特征融合的成对服装兼容性预测方法，其特征在于，步骤(3)中，将每一个视觉图像进行裁剪和缩放，最终的大小为224*224；并使用Word2Vec模型将文本数据转换为128维的词向量。

4.根据权利要求1所述的基于特征融合的成对服装兼容性预测方法，其特征在于，步骤(4)中，所述的TextCNN网络由一维卷积层、一维池化层和全连接层组成；TextCNN网络的输入是通过预处理得到的一个128维的词向量，经过上述三个操作，最终输出的是一个64维的服装文本语义特征。

5.根据权利要求1所述的基于特征融合的成对服装兼容性预测方法，其特征在于，步骤(4)中，ResNet-18分为5个层级，在第二至第五层级后面分别插入一个非局部模块Non-local block；

在Non-localblock中，假设输入特征图x为C×H×W，特征图宽为W，高为H，通道数为C，首先对于输入特征图进行θ(x)、

和g(x)三种操作，θ(x)、

和g(x)表示为1×1的卷积操作，分别得到三个大小为C/2×H×W的特征，对于θ(x)的C/2×H×W进行矩阵变换得到大小为HW×C/2的矩阵，与

下的经过矩阵变换得到的C/2×HW的矩阵相乘，得到大小为HW×HW的相似度矩阵；然后g(x)变换后的C/2×HW矩阵与经过SoftMax操作的HW×HW相似度矩阵再进行相乘，得到大小为C/2×HW的特征向量y；接下来，通过1×1的卷积操作δ(x)，将特征向量y进行变换得到大小为C×H×W的新特征。最后，将加强后的特征图与原始输入的特征作像素加权和得到z，具体公式为：

z＝δ(y)+x

6.根据权利要求1所述的基于特征融合的成对服装兼容性预测方法，其特征在于，步骤(4)中，三个特征变换向量z_dot，z_diff，z_sum的公式如下：

z_dot(v_t，v_b)＝[v_t1v_b1，v_t2v_b2，…，v_tdv_bd]^T

z_diff(v_t，v_b)＝[(v_t1-v_b1)²，(v_t2-v_b2)²，…，(v_td-v_bd)²]^T

z_sum(v_t，v_b)＝[v_t1+v_b1，v_t2+v_b2，…，v_td+v_bd]^T

7.根据权利要求6所述的基于特征融合的成对服装兼容性预测方法，其特征在于，步骤(4)中，所述评分模块中的全连接网络由两个全连接层fc₁、fc₂和一个激活函数Relu组成。

8.根据权利要求7所述的基于特征融合的成对服装兼容性预测方法，其特征在于，步骤(4)中，最终的兼容性得分score的公式为：

score＝sigmoid(fc₂(Relu(fc₁(c(z_dot，z_diff，z_sum)))))。