CN114758149A

CN114758149A - 基于深度多模态特征融合的时尚兼容度分析方法和系统

Info

Publication number: CN114758149A
Application number: CN202210442703.4A
Authority: CN
Inventors: 李云; 王学军; 井佩光
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-15

Abstract

本申请公开了基于深度多模态特征融合的时尚兼容度分析方法和系统，通过样本特征提取网络，基于Resnet‑18的视觉特征提取网络，提取视觉特征和基于独热编码的文本特征提取网络，处理文本数据；在提取特征后将特征进行融合，所用方法分别为基于注意力机制的视觉特征和文本特征融合网络，将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络，加强视觉模态的特征表达；然后使用基于多层映射的特征表示网络将融合特征映射到多模态向量空间之中；最后使用基于融合特征兼容度计算网络，在多模态向量空间中拉近融合特征正对距离，扩大负对距离。在本申请中，能够合理的匹配时尚单品，提高时尚单品匹配结果的准确率。

Description

基于深度多模态特征融合的时尚兼容度分析方法和系统

技术领域

本申请属于计算机视觉及图像应用领域，具体涉及基于深度多模态特征融合的时尚兼容度分析方法和系统。

背景技术

一套合适的套装通常依赖于通过时尚单品之间的互补性进行一个好的匹配，因此研究一个自动衣服匹配算法是非常有意义的。现有对时尚兼容度问题的研究中，对时尚单品的多模态信息的融合问题研究的较少。而多模态信息是从不同的描述角度对同一件单品进行的特征的表达，不同的角度就包含了不同的信息，不同的信息进行融合就保证了单品特征的完整性。单品的特征表达是准确建立单品之间关联关系模型的前提和关键，因此多模态融合模块对算法模型至关重要。而针对另一个问题，单品的类别信息的利用，针对不同类别的单品，以往是通过将单品特征映射到一个潜在空间中，此时不同的单品基于的映射网络是相同的。那么假设在这样的一个潜在的空间中，单品之间通过某种计算方式得到的度量就代表单品之间的兼容性。综上所述，为了提高模型的准确度，本发明通过建立一个类别嵌入的空间，即不同的类别有不同的映射网络，这样不同类别的单品就可以映射到不同类别的空间中。在这样的空间中，假设存在某种度量能有效的衡量单品之间的兼容关系，从而能够更加准确的建立单品之间的兼容度算法模型。

发明内容

本申请的目的在于克服现有技术的不足，本申请提出了基于深度多模态特征融合的时尚兼容度分析方法和系统，通过样本特征提取网络，基于Resnet-18的视觉特征提取网络，提取视觉特征和基于独热编码的文本特征提取网络，在提取特征后将特征进行融合，所用方法分别为基于注意力机制的视觉特征和文本特征融合网络，将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络，加强视觉模态的特征表达；然后使用基于多层映射的特征表示网络将融合特征映射到多模态向量空间之中；最后使用基于融合特征兼容度计算网络，在多模态向量空间中拉近融合特征正对距离，扩大负对距离，本发明能够合理的匹配单品，提高时尚匹配结果的准确率。

为实现上述目的，本申请提供了如下方案：

一种基于深度多模态特征融合的时尚兼容度分析方法，具体包括如下步骤：

采集待测数据样本集；

基于所述待测数据样本集，对所述待测数据样本集进行样本特征提取网络训练，获取所述待测数据样本集内的待测数据样本特征；

基于所述待测数据样本特征进行特征融合网络训练，获取所述待测数据样本特征的模态特征表达数据；

基于所述模态特征表达数据，进行多层映射的特征表示网络训练，获取所述模态特征表达数据多层映射特征数据；

基于所述多层映射特征数据，进行融合特征兼容度计算网络训练，获取所述模态特征表达数据的多模态特征融合的时尚兼容度分析结果。

优选的，所述样本特征提取网络的训练方法包括：

采用Resnet-18提取时尚单品视觉特征，将最后一层的网络输出结果作为时尚单品的特征表达；

采用独热编码的方式将文本描述信息建立词汇表。

优选的，所述特征融合网络的训练方法包括：

采用注意力网络对模态特征进行学习。

优选的，所述模态特征包括文本模态和视觉模态。

优选的，从视觉模态到文本模态的转换可以表示为：

其中α表示文本模态，β表示为视觉模态，

两个模态的特征矩阵分别表示为

和

Querys矩阵定义为

Keys矩阵定义为

和Values矩阵定义为

其中的

和

是权重，为可学习的超参数；

经过所述注意力机制得到的特征Y_α和原始模态的特征X_β相加得到特征F_a：

F_a＝Y_α+X_β

在得到文本模态α和视觉模态β的跨模态的加和融合特征后，同时还通过视觉模态自身的注意力机制网络来加强视觉特征的表达能力，其过程与跨模态注意力机制相同，即将两个视觉特征进行注意力机制的计算，并将得到的特征定义为S_β，通过残差结构，原始特征和自注意力机制得到的视觉特征加和得到特征F_b：

F_b＝S_β+X_β。

优选的，所述多层映射特征表示网络的训练方法包括：

对特征F_a和特征F_b进行特征融合，首先将两个特征进行串联，将串联后的特征表示为F_conc；然后通过多层感知机得到多模态融合模块的最终的特征表示结果：

F＝σ(W_oF_conc+b_o)

其中，F为多模态融合模块最终的特征表示，W_o和b_o为该网络的参数，σ为非线性的激活函数。

优选的，所述融合特征兼容度计算网络的训练方法包括：在多模态向量空间之中，使用距离度量作为融合特征的兼容度衡量标准。

为实现上述目的，本申请还提供了一种基于深度多模态特征融合的时尚兼容度分析系统，具体包括如下步骤：

包括：采集模块、样本特征提取模块、模态特征表达模块、多层映射特征模块和多模态特征融合兼容度分析模块；

所述采集模块用于采集待测数据样本集；

所述样本特征提取模块用于基于所述待测数据样本集，对所述待测数据样本集进行样本特征提取网络训练，获取所述待测数据样本集内的待测数据样本特征；

所述模态特征表达模块用于基于所述待测数据样本特征进行特征融合网络训练，获取所述待测数据样本特征的模态特征表达数据；

所述多层映射特征模块用于基于所述模态特征表达数据，进行多层映射的特征表示网络训练，获取所述模态特征表达数据多层映射特征数据；

所述多模态特征融合兼容度分析模块用于基于所述多层映射特征数据，进行融合特征兼容度计算网络训练，获取所述模态特征表达数据的多模态特征融合的时尚兼容度分析结果。

本申请公开了基于深度多模态特征融合的时尚兼容度分析方法和系统，属于时尚分析领域。

本申请的有益效果为：基于Resnet-18的视觉特征提取网络，提取视觉特征和基于独热编码的文本特征提取网络，将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络，加强视觉模态的特征表达，能够合理的匹配时尚单品，提高时尚单品匹配结果的准确率，具有广阔的推广空间和使用价值。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中的基于深度多模态特征融合的时尚兼容度分析方法的流程示意图；

图2为本申请实施例中的基于深度多模态特征融合的时尚兼容度分析方法的待测服装图像数据集流程示意图；

图3为本申请实施例中的基于深度多模态特征融合的时尚兼容度分析方法的系统结构组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

如图1所示，一种基于深度多模态特征融合的时尚兼容度分析方法，方法包括：

样本特征提取网络，所用方法分别为基于Resnet-18的视觉特征提取网络，提取视觉特征和基于独热编码的文本特征提取网络，处理文本数据；

在提取特征后将特征融合，所用方法分别为基于注意力机制的视觉特征和文本特征融合网络，将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络，加强视觉模态的特征表达；

然后使用基于多层映射的特征表示网络将融合特征映射到多模态向量空间之中；

最后使用基于融合特征兼容度计算网络，在多模态向量空间中拉近融合特征正对距离，扩大负对距离。

在本发明具体实施过程中，特征提取网络的训练过程，包括：

时尚单品视觉特征提取采用Resnet-18网络，其中Resnet-18网络由一个7*7，步长为2，填充为3，通道数为64的最浅卷积层和四个包含两个残差块(每个残差块包含两层卷积)的层组成。

具体的，这四个层包括：

第一层由两个残差块组成。两个残差块结构一致。残差块由两个3*3，步长为1，填充为1，通道数为64卷积层组成，并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。

第二层由两个残差块组成。第一个残差块由一个3*3，步长为2，填充为1，通道数为128卷积层和一个3*3，步长为1，填充为1，通道数为128卷积层组成，并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3，步长为1，填充为1，通道数为128卷积层组成，并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。

第三层由两个残差块组成。第一个残差块由一个3*3，步长为2，填充为1，通道数为256卷积层和一个3*3，步长为1，填充为1，通道数为256卷积层组成，并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3，步长为1，填充为1，通道数为256卷积层组成，并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。

第四层由两个残差块组成。第一个残差块由一个3*3，步长为2，填充为1，通道数为512卷积层和一个3*3，步长为1，填充为1，通道数为512卷积层组成，并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3，步长为1，填充为1，通道数为512卷积层组成，并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。

该网络将最后一层的输出结果作为时尚单品的特征表达，并最终得到2048维的时尚单品特征向量。

在提取视觉特征的同时，本发明采用one-hot独热编码的对文本进行数据处理，将文本描述信息建立词汇表，并过滤掉在单品中出现少于5次的单词，最终得到了2728个单词的单词表，因此将每一个时尚单品的文本描述信息表示为2728维的向量。

在得到视觉特征和文本特征后，本发明采用注意力机制学习两个不同模态特征，加强目标模态的特征表达。α和β分别表示为单品文本模态和单品视觉模态。从模态β到α的潜在转换可以表示为

两个模态的特征矩阵分别表示为

和

Querys矩阵定义为

Keys矩阵定义为

和Values矩阵定义为

其中的

和

是权重，为可学习的超参数；

经过跨模态注意力机制得到的特征Y_α和原始模态的特征X_α相加得到特征F_a：

F_a＝Y_α+X_β

在得到单品文本模态α和单品视觉模态β的跨模态的加和融合特征后，同时还通过视觉模态自身的注意力机制网络来加强视觉特征的表达能力。其过程与上述跨模态注意力机制相同，即将两个视觉特征进行注意力机制的计算，并将得到的特征定义为S_β。通过残差结构，原始特征和自注意力机制得到的视觉特征加和得到特征F_b：

F_b＝S_β+X_β

得到F_a和F_b之后，将两个特征进行融合，首先将两个特征进行串联，将串联后的特征表示为F_conc。本发明通过多层映射网络将特征映射到多模态向量空间之中，得到最终的特征表示结果：

F＝σ(W_oF_conc+b_o)

在多模态向量空间之中，本发明基于距离度量作为融合特征的兼容度衡量标准。例如一组时尚单品的特征的三元组可以定义为{x_i ^(u),x_j ^(v),x_k ^(v)}，有着如下的关系：目标单品i属于类型u，单品j和单品k属于一个不同的类型v。搭配对(x_i,x_j)是兼容的，同时出现在同一个套装中，意味着应该迫使两个单品在多模态向量空间中彼此靠近，而x_k是从与x_j相同类型中随机挑选出来的单品，迫使它们在多模态向量空间中彼此疏远。三元损失的表示形式如下：

l(i,j,k)＝max{0,d(i,j)-d(i,k)+μ}

其中的μ为边界值。基于

来代表类别特定的多模态向量空间，这样的空间中，类型u和v是搭配的。

实施例二

如图2所示，待测服装图像的时尚兼容度分析广泛地应用在计算机视觉与图形领域，通过计算时尚单品的多模态信息的融合问题，不同的描述角度对同一件时尚单品进行的特征的表达，不同的角度就包含了不同的时尚单品信息，不同的时尚单品信息进行融合就保证了单品特征的完整性。针对不同类别的服装单品，通过样本特征提取网络，基于Resnet-18的视觉特征提取网络，提取视觉特征和基于独热编码的文本特征提取网络，基于注意力机制的视觉特征和文本特征融合网络，加强时尚单品视觉模态的特征表达，用基于融合特征兼容度计算网络，在多模态向量空间中拉近融合特征正对距离，扩大负对距离，本发明能够合理的匹配单品，提高时尚匹配结果的准确率，实现自动匹配时尚单品。

在本实施例中，具体实现步骤包括如图2所示，样本特征提取网络，所用方法分别为基于Resnet-18的视觉特征提取网络，提取视觉特征和基于独热编码的文本特征提取网络，处理文本数据；

具体的，这四个层包括：

两个模态的特征矩阵分别表示为

和

Querys矩阵定义为

Keys矩阵定义为

和Values矩阵定义为

其中的

和

是权重，为可学习的超参数；

F_a＝Y_α+X_β

F_b＝S_β+X_β

F＝σ(W_oF_conc+b_o)

l(i,j,k)＝max{0,d(i,j)-d(i,k)+μ}

其中的μ为边界值。基于

实施例三为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

如图3所示，一种基于深度多模态特征融合的时尚兼容度分析系统，包括：采集模块、样本特征提取模块、模态特征表达模块、多层映射特征模块和多模态特征融合兼容度分析模块；

采集模块用于采集待测数据样本集；

样本特征提取模块用于基于待测数据样本集，对待测数据样本集进行样本特征提取网络训练，获取待测数据样本集内的待测数据样本特征；

模态特征表达模块用于基于待测数据样本特征进行特征融合网络训练，获取待测数据样本特征的模态特征表达数据；

多层映射特征模块用于基于模态特征表达数据，进行多层映射的特征表示网络训练，获取模态特征表达数据多层映射特征数据；

多模态特征融合兼容度分析模块用于基于多层映射特征数据，进行融合特征兼容度计算网络训练，获取模态特征表达数据的多模态特征融合的时尚兼容度分析结果。

另外，以上对本发明实施例所提供的基于深度多模态特征融合的时尚兼容度分析方法和系统进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。