CN114428877B

CN114428877B - 一种智能服饰匹配方法和系统

Info

Publication number: CN114428877B
Application number: CN202210099379.0A
Authority: CN
Inventors: 杨力; 张赟
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2023-09-15
Anticipated expiration: 2042-01-27
Also published as: CN114428877A

Abstract

本申请公开一种智能服饰匹配方法和系统，本方法包括向残差网络添加多种注意力模型，对公开服饰数据集的标签进行平滑处理，通过对残差网络进行训练，得到多注意力残差网络模型；用多注意力残差网络模型替换Faster‑RCNN特征提取器，然后构建特征金字塔，建立服饰检测模型；构建搭配网络并训练，对公开服饰数据集进行特征提取，得到检测目标数据库；计算待查询服饰与数据库中服饰特征向量之间空间距离，构建待搭配集，计算匹配度得分，得到搭配推荐结果。本系统包括多注意力残差网络单元、服饰检测模型单元、检测目标数据库单元和搭配推荐单元。本申请能够更好地提取服饰图像的有效信息，正确的检测到目标，实现对查询服饰的搭配推荐。

Description

一种智能服饰匹配方法和系统

技术领域

本申请属于计算机服饰匹配，具体涉及一种智能服饰匹配方法和系统。

背景技术

随着网络服装市场规模的进一步扩大，给予了消费者更多的选择，却也带来了一些新的问题和挑战。服装商品每天数以万计地涌入市场，然而人们面对海洋式的服装库却要花费很长的时间才能选出自己心仪的服装，甚至有时无从下手。在大数据时代的背景下，人们开始考虑如何从海量的数据中获取有价值的信息，然后利用这些信息为消费者提供更好的服务，这也是服装商家们如今最关心的事情之一。在这个背景下，各服装商家都想帮助消费者能够快速地从众多商品中找到自己心仪的服饰来提升用户的购物体验，以获得更多的关注度。

目前来看，消费者在各大电商平台购物基本上还是通过输入关键词来搜索服饰，如输入T恤、连衣裙、衬衫。这种基于标签的搜索方法依靠人工对服装的类别进行判定，而人工标注的成本高，效率低下，另外人工标注的信息具有很强的主观因素，格式也不统一。随着深度学习以及大数据的发展，已经有电商平台推出了服装检索功能。淘宝的拍立淘服务可以检索与查询图片相似的服装、配饰以及其他物品。但这种推荐相似服装的方法只能推荐相同类别的服装，不能让不同类别之间的服饰形成搭配关系。另外，购物平台上看到的一套服装，其实也是由商家手工搭配出来的。此外，深度学习服饰检索和服饰匹配方法还存在服饰尺寸不统一、检测准确率不高、服饰匹配相容性不高。为此。

发明内容

本申请提出了一种智能服饰匹配方法和系统，克服目前服饰匹配方法中服饰尺寸不统一、检测准确率不高、服饰风格匹配相容性不高等问题，提高服饰匹配的准确度和匹配效率。

为实现上述目的，本申请提供了如下方案：

一种智能服饰匹配方法，包括如下步骤：

S1.向残差网络添加空间注意力模型、通道注意力模型和自注意力模型，同时，对CIFAR-100公开服饰数据集的标签进行平滑处理，使用平滑处理后的所述CIFAR-100公开服饰数据集的标签对所述残差网络进行训练，得到基于多注意力的多注意力残差网络模型；

S2.使用所述多注意力残差网络模型作为Faster-RCNN的特征提取器，得到改进的Faster-RCNN，然后基于所述多注意力残差网络模型构建特征金字塔，基于所述特征金字塔和所述改进的Faster-RCNN，建立基于所述多注意力残差网络模型的服饰检测模型；

S3.使用所述改进的Faster-RCNN检测出训练用图像中的服饰，然后基于所述CIFAR-100公开服饰数据集和所述多注意力残差网络模型，构建搭配网络，并对所述搭配网络进行训练，利用训练好的所述搭配网络对所述CIFAR-100公开服饰数据集进行特征提取，得到检测目标数据库；

S4.计算待查询服饰与所述检测目标数据库中的服饰特征向量之间的空间距离，基于所述空间距离构建待搭配集，然后利用服装搭配评分器计算所述待搭配集与所述待查询服饰的匹配度得分，根据所述匹配度得分，得到搭配推荐结果。

可选的，所述S1中，平滑处理的方法包括：

通过下列公式，将one-hot编码的所述公开服饰数据集的标签向量映射成新的标签向量

可选的，所述S2中，基于所述多注意力残差网络模型的输出，将所述多注意力残差网络模型的Layer1，Layer2，Layer3，Layer4，Pool层输出作为所述特征金字塔的{C₁，C₂，C₃，C₄，C₅}层，所述多注意力残差网络模型各层输出的通道数分别为256，512，1024，2048，2048；

将所述特征金字塔的维度统一调整为256。

可选的，所述特征金字塔的维度统一调整为256的方法包括：

S2.1.先对C₅进行1*1卷积核，将通道数2048调整至256；再使用卷积核为3*3，Padding为1的卷积，将卷积后的输出作为Pool层；

S2.2.C_i(i＝4,3,2,1)同样使用所述S2.1中的两种卷积核，将得到的特征图作为p′_i，再将p′_i+1进行2倍的上采样得到的特征图与p′_i相加，得到采样后的P_i；

S2.3.重复所述S2.2，直到所有采样后的特征图{P₁，P₂，P₃，P₄，P₅}全部生成，完成所述特征金字塔的维度统一调整。

可选的，所述S3中，构建所述搭配网络，并对所述搭配网络进行训练的方法包括：

检测出训练用图像中的服饰后，根据所述CIFAR-100公开服饰数据集提供的服饰属性，将所述服饰属性作为语义特征，同时使用所述多注意力残差网络模型提取所述CIFAR-100公开服饰数据集中的服装的视觉特征，将所述语义特征和所述视觉特征进行融合，得到所述搭配网络；

使用视觉语义损失和困难样本挖掘损失对所述搭配网络进行训练。

可选的，所述检测目标数据库的类别包括上装、下装、衬衫、内衣、鞋子、包和配件。

可选的，所述S4中，得到所述匹配度得分的方法包括：

S4.1.选择任意两张模特服饰图和对应的属性信息；

S4.2.基于所述改进的Faster-RCNN，根据检测器得到的目标回归框，用OpenCV工具对两张所述模特服饰图进行裁剪，去除无关的背景信息；

S4.3.将裁剪后的所述模特服饰图重塑至相同大小尺寸后，使用所述多注意力残差网络模型对图像进行特征提取；

S4.4.将服饰属性使用BERT预训练模型生成语义特征向量；

S4.5.根据视觉语义嵌入方法，对两张所述模特服饰图分别进行视觉特征和语义特征融合后得到的512维度特征向量进行拼接，得到1024维度的特征向量；

S4.6.将1024维度的特征向量经过一个多层感知机层后，得到两张所述模特服饰图中的服饰的匹配度得分。

另一方面，为实现上述目的，本申请还提供了一种智能服饰匹配系统，包括多注意力残差网络单元、服饰检测模型单元、检测目标数据库单元和搭配推荐单元；

所述多注意力残差网络单元用于通过向残差网络添加空间注意力模型、通道注意力模型和自注意力模型，同时，对CIFAR-100公开服饰数据集的标签进行平滑处理，使用平滑处理后的所述CIFAR-100公开服饰数据集的标签对所述残差网络进行训练，得到基于多注意力的多注意力残差网络模型；

所述服饰检测模型单元用于使用所述多注意力残差网络模型作为Faster-RCNN的特征提取器，得到改进的Faster-RCNN，然后基于所述多注意力残差网络模型构建特征金字塔，基于所述特征金字塔和所述改进的Faster-RCNN，建立基于所述多注意力残差网络模型的服饰检测模型；

所述检测目标数据库单元用于使用所述改进的Faster-RCNN检测出训练用图像中的服饰，然后基于所述CIFAR-100公开服饰数据集和所述多注意力残差网络模型，构建搭配网络，并对所述搭配网络进行训练，利用训练好的所述搭配网络对所述CIFAR-100公开服饰数据集进行特征提取，得到检测目标数据库；

所述搭配推荐单元用于计算待查询服饰与所述检测目标数据库中的服饰特征向量之间的空间距离，基于所述空间距离构建待搭配集，然后利用服装搭配评分器计算所述待搭配集与所述待查询服饰的匹配度得分，根据所述匹配度得分，得到搭配推荐结果。

本申请的有益效果为：

本申请公开了一种智能服饰匹配方法和系统，构建的多注意力残差网络模型(MA-ResNet)，能够更好地提取服饰图像的有效信息。利用MA-ResNet替了Faster-RCNN的特征提取器，并抽取MA-ResNet的不同层次以形成特征金字塔。基于MA-ResNet的目标检测Faster-RCNN模型可以从不同层次的特征图中获得更多的信息，同时对尺寸不统一的目标也极为友好，不仅能够正确的检测到目标，同时性能优于其他模型。针对当前服饰匹配推荐的不足，基于MA-ResNet的服装搭配网络实现对查询服饰的搭配推荐，且效果良好。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的智能服饰匹配方法流程示意图；

图2为本申请实施例二的智能服饰匹配系统结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

如图1所示，为本申请实施例一的智能服饰匹配方法流程示意图，主要包括以下步骤：

S1.向残差网络ResNet网络的每个block添加空间注意力、通道注意力、自注意力模型，同时，对CIFAR-100公开服饰数据集的标签进行平滑处理，使用平滑处理后的CIFAR-100公开服饰数据集的标签对残差网络进行训练，得到基于多注意力的多注意力残差网络模型MA-ResNet。

在本实施例中，通过对残差网络ResNet的每个block添加自注意力模块、空间注意力模块以及通道注意力模块，使残差网络ResNet更善于捕获特征内部的相关性，实现对特征图赋予不同的权重,以及对CIFAR-100公开服饰数据集的标签进行平滑处理,其中通过批规范化和组规范化解决在深度神经网络的训练过程中内部协变量偏移问题；为了避免模型发生过拟合，使用了标签平滑方法对原始标签进行替换。

在本实施例中，标签平滑处理通过公式(1)和公式(2)进行，将传统的one-hot编码的标签向量映射成新的标签向量其中K是多分类类别的总个数，α是很小的超参数(通常取0.1)，N为样本总个数，i为样本个数变量，样本标签向量。

S2.将Faster-RCNN原来的特征提取器换为S1构建的MA-ResNet网络用于提取低层特征，并抽取MA-ResNet网络不同层次的特征图来建立特征金字塔，在本实施例中，需要在RPN之前加入该特征金字塔来提取图像不同层次的特征，形成基于MA-ResNet的Faster-RCNN服饰检测模型。

在本实施例中，使用的特征金字塔网络，首先从上往下生成了特征金字塔,再通过自上而下的路径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合。基于MA-ResNet的输出，将MA-ResNet的Layer1，Layer2，Layer3，Layer4，Pool层输出作为特征金字塔的{C₁，C₂，C₃，C₄，C₅}层(C₁,C₂,C₃,C₄,C₅分别对应多注意力残差网络模型的Layer1，Layer2，Layer3，Layer4，Pool层的输出)，MA-ResNet各层输出的通道数分别为256，512，1024，2048，2048。可以看出高层网络输出的通道数与低层输出的维度并不一样，因此需要将{C₁，C₂，C₃，C₄，C₅}的维度放缩到同一尺寸，将FPN的维度统一到256，

在本实施例中，将特征金字塔的维度统一调整为256的方法包括：

S2.1.将高层网络输出C₅，先进行1*1卷积核，将通道数2048调整至256；再使用卷积核为3*3，Padding为1的卷积，这是为了减少上采样的混叠效应，将卷积后的输出作为Pool层。

S2.2.C_i(i＝4,3,2,1)同样使用步骤1中的两种卷积核，将得到的特征图作为p′_i,再将p′_i+1进行2倍的上采样(采样方法为最近邻插值法)得到的特征图与p′_i元素相加，得到采样后的P_i。

S2.3.重复S2.2，直到所有采样后的特征图{P₁，P₂，P₃，P₄，P₅}全部生成，完成特征金字塔的维度统一调整。其中，P表示采样后的特征图P_i，对应C_i的变换。

S3.用S2形成的基于MA-ResNet的Faster-RCNN服饰检测模型检测出图像中的服饰，然后根据CIFAR-100公开服饰数据集提供的服饰属性，将属性作为语义特征，其次使用S1形成的MA-ResNet模型提取服装的视觉特征，将语义特征和视觉特征两种特征进行融合得到搭配网络，使用视觉语义损失以及困难样本挖掘损失对搭配网络进行训练，让网络学习到服饰的不同风格属性；然后利用训练好的搭配网络将CIFAR-100公开服饰数据集中服装进行特征提取并存入数据库中，得到检测目标数据库。

在本实施例中，检测目标数据库类别包括：上装、下装、衬衫、内衣、鞋子、包和配件。

使用OpenCV将原始图像进行裁剪，检测和裁剪的具体步骤如下：

S3.1.将任意尺寸的模特图输入到MA-ResNet中提取图像特征。

S3.2.抽取MA-ResNet的某些层输出作为特征金字塔的输入，主干网络继续前后传播，得到维度更高的特征图。

S3.3.将S3.2得到的特征图作为RPN的输入，RPN将生成多个候选区域，对候选区域进行筛选，选取前2000个候选区域送到后续网络。

S3.4.将S3.3输出的前2000个候选区域输入到RoI池化层，对这些候选区域进行下采样。

S3.5.RoI池化层对候选区域下采样后需再接一个全连接层，得到此区域最终的分类概率以及坐标点。

S3.6.根据返回的坐标点，用OpenCV工具将原始图片进行裁剪。

S3.7.重复S3.1-S3.6，直到数据集中的所有图片裁剪完成。

视觉嵌入方法(视觉特征)中，首先把MA-ResNet输出的1*2048维特征向量x输入多层感知机MLP_f中，将2048维的特征向量映射到512维，f为最终的视觉特征向量。而语义嵌入方法(语义特征)中，将服装的文本描述e输入到Bert预训练模型中以生成1*1024维度的语义特征向量，再经过多层感知机MLP_v层后，语义嵌入向量v的维度为512。

困难样本挖掘损失中，将挖掘批数据中的困难样本，用困难样本挖掘损失来训练服饰匹配对。对一组输入数据，困难样本挖掘将选择具有不相同类别的最不搭配的服饰和具有相同类别的最相似服饰来进行训练。困难样本挖掘的三元损失公式如(3)所示。其中M是批次大小，A和A′是批数据中不同类别的服装图像，而A是同B类别一样的服装图像，m为设置的边距值。

S4.通过计算待查询服饰与检测目标数据库中的服饰特征向量之间的空间距离，然后基于空间距离，选取Top50作为待搭配集。利用服装搭配评分器计算这50个候选集与待查询服饰的匹配度得分，最后按得分顺序返回最终的搭配推荐结果。

在本实施例中，服饰搭配评分的具体流程如下：

S4.1.输入任意两张模特服饰图和对应的属性信息。

S4.2.经过基于MA-ResNet改进的Faster-RCNN检测网络，根据检测器得到的目标回归框，用OpenCV工具将两张模特服饰图进行裁剪，以去除无关的背景信息。

S4.3.将裁剪后的模特服饰图重塑至相同大小尺寸224*224，使用MA-ResNet对图像进行特征提取。

S4.4.将服饰属性使用BERT预训练模型生成语义特征向量。

S4.5.根据视觉语义嵌入方法，对两张模特服饰图分别进行视觉特征和语义特征融合后得到的512维度特征向量进行拼接，得到一个1024维度的特征向量。

S4.6.将1024维度的特征向量经过一个多层感知机层后，改进的Faster-RCNN检测网络会在[0,1]范围内给出这两件服饰的匹配度得分，得分越高表示服饰对越兼容。

实施例二

如图2所示，为本申请实施例二的智能服饰匹配系统结构示意图，主要包括多注意力残差网络单元、服饰检测模型单元、检测目标数据库单元和搭配推荐单元。

在本实施例中，多注意力残差网络单元用于通过向残差网络添加空间注意力模型、通道注意力模型和自注意力模型，同时，对CIFAR-100公开服饰数据集的标签进行平滑处理，使用平滑处理后的公开服饰数据集的标签对残差网络进行训练，得到基于多注意力的多注意力残差网络模型。

服饰检测模型单元用于使用多注意力残差网络模型作为Faster-RCNN的特征提取器，得到改进的Faster-RCNN，然后基于多注意力残差网络模型构建特征金字塔，基于特征金字塔和改进的Faster-RCNN，建立基于多注意力残差网络模型的服饰检测模型。

检测目标数据库单元用于使用改进的Faster-RCNN检测出训练用图像中的服饰，然后基于CIFAR-100公开服饰数据集和多注意力残差网络模型，构建搭配网络，并对搭配网络进行训练，利用训练好的搭配网络对CIFAR-100公开服饰数据集进行特征提取，得到检测目标数据库。

搭配推荐单元用于计算待查询服饰与检测目标数据库中的服饰特征向量之间的空间距离，基于空间距离构建待搭配集，然后利用服装搭配评分器计算待搭配集与待查询服饰的匹配度得分，根据匹配度得分，得到搭配推荐结果。

进一步的，在本实施例中，为了配合上述匹配系统，还加入了以下辅助功能单元：

(1)服饰图片上传单元，用户在系统前端页面通过点击上传按钮，将待查询的服饰图像上传至服务器保存。

(2)服饰图像管理单元，用户每天会使用多次检索或搭配推荐任务，因此会积累大量的服饰图像。通过对缓存图像进行管理，既可以节约系统空间又可以丰富图像库。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种智能服饰匹配方法，其特征在于，包括如下步骤：

S4.计算待查询服饰与所述检测目标数据库中的服饰特征向量之间的空间距离，基于所述空间距离构建待搭配集，然后利用服装搭配评分器计算所述待搭配集与所述待查询服饰的匹配度得分，根据所述匹配度得分，得到搭配推荐结果；

所述S1中，平滑处理的方法包括：

通过下列公式，将one-hot编码的所述公开服饰数据集的标签向量映射成新的标签向量；

；

其中，代表样本个数变量，N代表样本总个数；/>代表超参数；

所述S3中，构建所述搭配网络，并对所述搭配网络进行训练的方法包括：

使用视觉语义损失和困难样本挖掘损失对所述搭配网络进行训练；

困难样本挖掘损失中，将挖掘批数据中的困难样本，用困难样本挖掘损失来训练服饰匹配对；对一组输入数据，困难样本挖掘将选择具有不相同类别的最不搭配的服饰和具有相同类别的最相似服饰来进行训练；困难样本挖掘的三元损失公式如下：

（3）；

其中M是批次大小，A和A′是批数据中不同类别的服装图像，而A是同B类别一样的服装图像，m为设置的边距值。

2.根据权利要求1所述的智能服饰匹配方法，其特征在于，

所述S2中，基于所述多注意力残差网络模型的输出，将所述多注意力残差网络模型的Layer1，Layer2，Layer3，Layer4，Pool层输出作为所述特征金字塔的层，所述多注意力残差网络模型各层输出的通道数分别为256，512，1024，2048，2048；

将所述特征金字塔的维度统一调整为256。

3.根据权利要求2所述的智能服饰匹配方法，其特征在于，

所述特征金字塔的维度统一调整为256的方法包括：

S2.1.先对进行1*1卷积核，将通道数2048调整至256；再使用卷积核为3*3，Padding为1的卷积，将卷积后的输出作为Pool层；

S2.2.(i=4,3,2,1)同样使用所述S2.1中的两种卷积核，将得到的特征图作为/>，再将/>进行2倍的上采样得到的特征图与/>相加，得到采样后的/>；

S2.3.重复所述S2.2，直到所有采样后的特征图全部生成，完成所述特征金字塔的维度统一调整。

4.根据权利要求1所述的智能服饰匹配方法，其特征在于，

所述检测目标数据库的类别包括上装、下装、衬衫、内衣、鞋子、包和配件。

5.根据权利要求1所述的智能服饰匹配方法，其特征在于，

所述S4中，得到所述匹配度得分的方法包括：

S4.1.选择任意两张模特服饰图和对应的属性信息；

S4.4.将服饰属性使用BERT预训练模型生成语义特征向量；

6.一种智能服饰匹配系统，其特征在于，包括多注意力残差网络单元、服饰检测模型单元、检测目标数据库单元和搭配推荐单元；

所述搭配推荐单元用于计算待查询服饰与所述检测目标数据库中的服饰特征向量之间的空间距离，基于所述空间距离构建待搭配集，然后利用服装搭配评分器计算所述待搭配集与所述待查询服饰的匹配度得分，根据所述匹配度得分，得到搭配推荐结果；

平滑处理的方法包括：

；

构建所述搭配网络，并对所述搭配网络进行训练的方法包括：

（3）；