CN114565119B

CN114565119B - 基于多模态图卷积网络的时尚兼容度预测方法

Info

Publication number: CN114565119B
Application number: CN202111412999.7A
Authority: CN
Inventors: 汪少初; 崔凯; 井佩光; 王少一; 王晓华; 周树旺; 马骏; 王燕午; 张恺; 吕沐�
Original assignee: Tianjin Institute Of Surveying And Mapping Co ltd; Tianjin University
Current assignee: Tianjin Institute Of Surveying And Mapping Co ltd; Tianjin University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-09-26
Anticipated expiration: 2041-11-25
Also published as: CN114565119A

Abstract

本发明公开了一种基于多模态图卷积网络的时尚兼容度预测方法，进行服饰单品的多模态信息的挖掘利用；利用服饰属性信息作为高级语义并融合视觉信息引导类别子空间生成，通过动态图卷积网络进行多模态特征数据之间的交互融合；加入自注意机制模块将标题文本特征引入到多模态融合中，最终将服饰单品的多模态特征表示通过时尚兼容度预测器获得服饰套装的兼容度分数。与现有技术相比，本发明通过充分利用服饰单品的视觉、文本及属性等多模态信息，构建时尚兼容度预测器实现兼容度分数的精确计算；为解决时尚兼容度预测问题提供了新的方法思路，有效地增强特征表示能力，保证多模态特征的一致性和完备性。

Description

基于多模态图卷积网络的时尚兼容度预测方法

技术领域

本发明涉及多媒体和大数据分析技术领域，特别是涉及一种基于AI算法的时尚兼容度预测方法。

背景技术

随着在线购物平台和时尚社交网站的蓬勃发展，时尚分析在多媒体计算研究领域受到广泛关注。合理的时尚搭配是指每个服饰单品之间在颜色、款式及风格上的协调与兼容。然而，在面对大量的服饰单品时，如何更好地选择服饰来搭配组合成一套合适得体的服装，依然是困扰很多人的难题。因此，建立科学有效的自动服饰搭配模型具有十分重要的意义。

多模态数据是通过不同领域或视角对同一个描述的对象获取到的数据，一般包括文本、图像、音频等信息。多模态融合可以实现对不同模态的数据进行整合，结合各模态数据的优点并减少在融合过程中造成的模态信息的损失，来达到增强特征表示的目的。目前，在时尚兼容度预测研究当中，对多模态信息的利用文本信息只是用来辅助的增强视觉信息从而提高模型准确性，文本特征和视觉特征的有效融合方式仍未得到充分的探索。

发明内容

基于上述背景技术中存在的问题，本发明提出了一种基于多模态图卷积网络的时尚兼容度预测方法，充分利用了服饰单品的多种模态信息实现时尚兼容度评分方法，从而解决服饰搭配评价问题。

本发明为解决上述问题而采取的技术方案如下：

一种基于多模态图卷积网络的时尚兼容度预测方法，该方法包括以下步骤：

步骤1、从包含多种模态信息的服饰单品数据中分别提取服饰单品包括上衣服饰单品和下衣服饰单品的视觉特征、标题文本特征，同时对所有单品的类别属性进行编码表示获取类别属性特征向量，实现服饰单品的多模态信息的挖掘利用；

步骤2、构建包含图像视觉特征、标题文本特征及类别属性特征向量的三元组数据集，划分成训练集、验证集和测试集，

将上衣服饰单品、下衣服饰单品的图像视觉特征分别嵌入到服饰类别属性特征向量中，得到融合视觉信息的类别子空间表示，并以此作为图节点输入到动态图卷积网络中，不断更新图节点特征表示与节点关联关系，获取不同类别子空间下的高级视觉语义表示；

步骤3、利用自注意力机制模块从服饰单品对应的标题文本特征中生成类别子空间权重，用于强化文本语义信息；

步骤4、将类别子空间权重与不同类别子空间下的高级视觉语义表示进行融合，获得上衣服饰单品、下衣服饰单品的多模态特征表示；

步骤5、将经过上述阶段融合后的多模态特征表示通过时尚兼容度预测器，计算得到最终的兼容度分数。

对视觉特征的提取采用VGGNet16模型，对标题文本特征的提取采用TextCNN模型，对类别属性信息的特征编码表示采用Glove Embedding模型。

在所述步骤2中，采用动态图卷积网络生成不同类别子空间下的高级视觉语义表示，如下式所示：

其中，表示第i个上衣服饰单品经过动态图卷积网络后更新的节点特征矩阵表示，LReLU(·)表示激活函数LeakyReLU，/>表示第l-1层动态图卷积网络的图节点特征表示，/>表示第l层动态图卷积的邻接矩阵，/>表示动态图卷积网络的状态更新权值，/>表示Z^t的第m列向量，C表示所有服饰类别属性的数量，d_z表示动态图卷积网络的图节点特征维度；同样地，得到第j个下衣服饰单品关于不同类别子空间下的高级视觉语义表示表示实数集，/>分别表示实数集的大小为C×d_z与d_h×2d_h。

在所述步骤3中，类别子空间权重矩阵如下式所示：

其中，表示第i个上衣服饰单品子空间权重矩阵，/>表示提取到的标题文本特征，/>表示生成查询矩阵的权重，/>表示生成键矩阵的权重，/>表示生成值矩阵的权重，表示/>的第m列向量，d_k为比例缩放因子；同样地，得到下衣服饰单品的子空间权重矩阵/> 表示实数集，/>表示实数集大小为C×1。

在所述步骤4中，进行融合后的上衣服饰单品的多模态特征表示如下式所示：

其中，表示第i个上衣服饰单品的多模态特征表示向量，/>表示第i个上衣服饰单品的视觉特征表示向量，/>表示第i个上衣服饰单品的视觉特征重构矩阵，/>表示上衣关于不同类别子空间下的高级视觉语义表示矩阵，/>表示上衣子空间权重矩阵，d_e表示多模态特征表示的维度；同样地，得到下衣服饰单品的多模态特征表示向量/> 表示实数集，/>表示实数集为d_e维的列向量。

在所述步骤5中，兼容度分数的计算公式如下式所示：

其中，y表示服饰搭配的兼容度分数，和/>分别上衣服饰单品和下衣服饰单品的多模态特征表示，σ(·)表示Sigmoid函数，W₁表示第一层全连接层的权重，b表示第一层全连接层的偏置项，W₂表示第二层全连接层的权重。

与现有技术相比，本发明的有益效果如下：

1、实现了服饰属性信息的挖掘利用，同时强化了属性特征的语义引导性；

2、区别于传统的静态图卷积网络，基于服饰属性特征表示的关联性构建，通过动态图卷积网络不断更新图节点表示与节点关联关系，更加有效地学习不同类别子空间下的多模态特征表示；

3、通过充分利用服饰单品的视觉、文本及属性等多模态信息，提出了多模态特征融合方法，通过将服饰单品在多种模态下的特征表示映射到一个公共的特征表示空间，并通过构建时尚兼容度预测器实现兼容度分数的精确计算；为解决时尚兼容度预测问题提供了新的方法思路，有效地增强特征表示能力，保证多模态特征的一致性和完备性。

附图说明

图1为本发明的基于多模态图卷积网络的时尚兼容度预测方法整体流程图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述。

如图1所示，为本发明的基于多模态图卷积网络的时尚兼容度预测方法整体流程图。以上衣、下衣两种服饰单品的兼容度分析为例，该流程具体包括以下步骤：

步骤1：从包含多种模态信息的服饰单品数据中分别获取所有服饰单品的图像视觉特征、标题文本特征及类别属性特征向量(由类别进行编码来表示)；

使用在ImageNet上预训练的深度神经网络VGGNet16模型(Inception-V3)对上衣、下衣服饰单品图像进行视觉特征提取，将VGGNet16模型的倒数第二个全连接层得到的2048维特征向量经过特征降维后，获取300维的视觉特征向量和/>其中，/>表示第i个上衣服饰单品的视觉特征表示向量，/>表示第j个上衣服饰单品的视觉特征表示向量，i和j分别表示第i个上衣单品和第j个下衣单品；对标题文本信息，首先利用预训练得到300维word2vector向量对标题文本中的每个单词进行编码，然后将每个服饰单品的单词向量串联起来输入到TextCNN模型，获取400维的文本特征向量/>和/>其中，/>和/>分别表示第i个上衣服饰单品和第j个下衣服饰单品的文本特征向量；同时，对所有单品的类别属性通过Glove Embedding模型进行编码表示，获取300维的类别属性特征向量；

步骤2：构建包含图像视觉特征、标题文本特征及类别属性特征向量的三元组数据集，进行数据集划分训练集、验证集，测试集，具体包括：将服饰单品图像视觉特征分别嵌入到服饰类别属性特征向量中，得到融合视觉信息的类别子空间表示，并以此作为图节点输入到动态图卷积网络中，不断更新图节点特征表示与节点关联关系，获取不同类别子空间下的高级视觉语义表示；其中类别属性数据是经过统计筛选后的服饰单品类别属性，例如衬衫、夹克、牛仔裤等，类别属性数据是通过Glove Embedding模型得到的属性特征表示，每一个类别属性对应一个类别属性特征向量，利用动态图卷积网络建立节点特征之间的信息交互，得到更新后的节点特征；

针对不同类别子空间下的高级视觉语义表示，采用动态图卷积网络(DynamicGraph Convolutional Network，简称DGCN)构建类别属性特征矩阵，类别属性特征矩阵U表示为：将服饰属性特征矩阵U分别与上衣、下衣服饰单品的视觉特征重构矩阵/>和/>进行哈达玛乘积运算(Hadamard Product)，其中，C表示所有服饰类别属性的数量，d_v表示视觉特征向量的维度，d_u表示属性特征向量的维度，/>表示实数域，将上衣、下衣服饰单品的视觉特征分别嵌入到服饰属性特征向量中，进行动态图卷积网络的节点输入重构，得到融合视觉信息的类别子空间表示，以上衣的特征融合表示计算为例，如公式(1)所示：

其中，表示第i个上衣的融合视觉信息的类别子空间表示矩阵，/>表示第i个上衣服饰单品的视觉特征重构矩阵，U表示服饰属性特征，d_v表示视觉特征向量的维度，且d_v＝d_u；

首先，将上衣融合视觉信息的类别子空间表示矩阵作为动态图卷积网络的输入，进行输入图节点特征的初始化计算，从而得到初始化后的图节点特征表示矩阵/>如公式(2)所示：

其中，表示经过初始化后的图节点特征表示，LReLU(·)表示激活函数LeakyReLU，/>表示初始化的图邻接矩阵，/>表示初始化的图状态更新权值，/>(m＝0,1,...,C-1)表示/>的第m列向量，C表示所有服饰类别属性的数量，d_h表示初始化后图节点特征维度；

然后，将初始化后的图节点特征表示输入到动态图卷积网络中，学习不同类别子空间下的高级视觉语义表示，通过将每一个属性向量进行融合从而获得全局属性特征向量的方式，更好地学习类别属性之间的相关性，实现动态更新后的动态图卷积网络的邻接矩阵，如公式(3)所示：

其中，表示第l层动态图卷积的邻接矩阵，l＝1,2,...,N表示动态图卷积网络的层数，/>表示第l层构造的动态关联矩阵/>的卷积层的权值，/>是由及其全局表示/>进行拼接得到的，全局表示/>是由/>经过全局平均池化和卷积层串联计算得到的。

以上衣为例，经过动态图卷积网络后，得到不同类别子空间下的高级视觉语义表示Z^t，如公式(4)所示：

其中，表示第i个上衣服饰单品经过动态图卷积网络后更新的节点特征矩阵表示，即不同类别子空间下的高级视觉语义表示，LReLU(·)表示激活函数LeakyReLU，/>表示第l-1层动态图卷积网络的图节点特征表示，/>表示第l层动态图卷积的邻接矩阵，表示动态图卷积网络的状态更新权值，/>(m＝0,1,...,C-1)表示Z^t的第m列向量，C表示所有服饰类别属性的数量，d_z表示动态图卷积网络的图节点特征维度。

同样地，进行上述计算，得到第j个下衣服饰单品关于不同类别子空间下的高级视觉语义表示

步骤3：利用自注意力机制从服饰单品对应的标题文本特征中生成类别子空间权重；

利用自注意力机制模块将上衣、下衣服饰单品的标题文本特征生成类别子空间权重，多头注意力机制(Multi-Head Attention)编码网络φ的编码规则，如公式5所示：

其中，(Q,K,V)代表输入向量，分别表示查询矩阵Query，值矩阵Value，键矩阵(Key)，为了防止梯度消失，引入比例缩放因子d_k；

为了强化文本语义信息的作用，利用提取到的标题文本特征学习子空间权重矩阵/>以上衣的类别子空间权重生成为例，如公式(6)所示：

其中，表示第i个上衣服饰单品子空间权重矩阵，利用c^t生成键矩阵、值矩阵，查询矩阵，/>表示生成查询矩阵的权重，/>表示生成键矩阵的权重，/>表示生成值矩阵的权重，/>(m＝0,1,...,C-1)表示/>的第m列向量，为了防止梯度消失，引入比例缩放因子d_k。

同样地，进行上述计算，可得到第j个下衣服饰单品的子空间权重矩阵

步骤4：将生成的类别子空间权重与不同类别子空间下的高级视觉语义表示进行融合，由此获得上衣、下衣服饰单品的多模态特征表示；以上衣的多模态特征表示为例，如公式(7)所示：

其中，表示第i个上衣服饰单品的多模态特征表示向量，/>表示第i个上衣服饰单品的视觉特征表示向量，/>表示第i个上衣服饰单品的视觉特征重构矩阵，/>表示上衣关于不同类别子空间下的高级视觉语义表示矩阵，/>表示上衣子空间权重矩阵，d_e表示多模态特征表示的维度。

同样地，进行上述计算，得到第j个下衣服饰单品的多模态特征表示向量

步骤5：将多模态特征表示通过时尚兼容度预测器计算，得到最终的兼容度分数；其中，时尚兼容度预测器是由一个多层感知机构成；

将上衣和下衣服饰单品的多模态特征表示拼接后，输入到多层感知机中进行兼容度计算，如下公式(8)所示：

其中，y表示服饰搭配的兼容度分数，和/>分别上衣和下衣服饰单品的多模态特征表示，σ(·)表示Sigmoid函数，W₁表示第一层全连接层的权重，b表示第一层全连接层的偏置项，W₂表示第二层全连接层的权重；

将公式的目标项整合到一起，得到如公式(9)所示的损失函数：

其中，表示服饰单品组合的训练数据，/>表示搭配过的上衣下衣单品组合，/>表示未搭配过的上衣下衣单品组合，θ表示网络中所有可训练的模型参数，/>表示F-范数的平方，λ控制可训练参数避免过拟合；

通过进行合理的参数设置对模型进行训练，最终结果以受试者工作特征曲线下的面积AUC作为模型性能评估指标。

本发明实施例描述如下：

使用来自从Polyvore网站爬取得到的FashionVC的20726套服饰搭配作为数据集，它总共包含14870个上衣单品与13662个下衣单品，其中每个单品都包含图片、标题文本及所属类别信息等多模态数据。随机地将上衣-下衣的搭配集合P分为三个子集：按照80％作为训练集，10％作为验证集，10％作为测试集划分数据集，且分别用P_train、P_valid和P_test来表示。使用T＝{t₁，t₂，...，t_Nt}和B＝{b₁，b₂，...，b_Nb}分别代表上衣和下衣的单品集合，其中，N_t和N_b分别为对应的集合中时尚单品的数量。使用来表示从Polyvore时尚网站上爬取的正例上衣-下衣套装集合。其中，M为套装的总数量。据此，对于给定的上衣t_i和下衣b_j，得到一个正例的下衣集合/>假定正例集合/>中上衣搭配的下衣比其它未搭配过的下衣更为兼容，由此构建训练集，三元组(i，j，k)表示下衣b_j比下衣b_k与上衣t_i更加搭配的预测结果如公式(10)所示：

再根据公式(10)生成以三元组为子集的集合DS_train、DS_valid和DS_test。并且，对于每组正例的上衣-下衣搭配(t_i和b_j)，随机地选择M个下衣b_k来组成M个三元组(i，j，k)。其中，M设置为3，且

本发明实施例的检测性能采用ROC曲线下与坐标轴围成的面积(Area Under theROC Curve，简称AUC)作为模型的评价指标。AUC的计算如公式(11)所示：

其中，T为包含所有上衣单品的集合，E(i)为测试集合中与上衣服饰单品i进行配对的下衣服饰单品所组成的评估对集合的大小，即所有(j,k)所组成的集合为评估对集合，δ(α)为指示函数，当α为真时值为1，否则为0，y_ij为正样本对兼容性得分的预测值，y_ik为负样本对i兼容性得分的预测值。

对于测试集合中每个上衣的评估对定义式，如下公式(12)所示：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态图卷积网络的时尚兼容度预测方法，其特征在于，该方法包括以下步骤：

步骤5、将经过所述步骤4得到的融合后的多模态特征表示通过时尚兼容度预测器，计算得到最终的兼容度分数，时尚兼容度预测器由一个多层感知机构成，将上衣和下衣服饰单品的多模态特征表示拼接后，输入到多层感知机中进行兼容度分数计算，兼容度分数的计算公式如下式所示：

其中，y表示服饰搭配的兼容度分数，和/>分别上衣服饰单品和下衣服饰单品的多模态特征表示，ReLU(·)表示激活函数ReLU，σ(·)表示Sigmoid函数，W₁表示第一层全连接层的权重，b表示第一层全连接层的偏置项，W₂表示第二层全连接层的权重。

2.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法，其特征在于，对视觉特征的提取采用VGGNet16模型，对标题文本特征的提取采用TextCNN模型，对类别属性信息的特征编码表示采用Glove Embedding模型。

3.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法，其特征在于，在所述步骤2中，采用动态图卷积网络生成不同类别子空间下的高级视觉语义表示，如下式所示：

其中，表示第i个上衣服饰单品经过动态图卷积网络后更新的节点特征矩阵表示，LReLU(·)表示激活函数LeakyReLU，/>表示第l-1层动态图卷积网络的图节点特征表示，表示第l层动态图卷积的邻接矩阵，/>表示动态图卷积网络的状态更新权值，表示Z^t的第m列向量，C表示所有服饰类别属性的数量，d_z表示动态图卷积网络的图节点特征维度；同样地，得到第j个下衣服饰单品关于不同类别子空间下的高级视觉语义表示表示实数集，/>分别表示实数集的大小为C×d_z与d_h×2d_h。

4.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法，其特征在于，在所述步骤3中，类别子空间权重矩阵如下式所示：

其中，表示第i个上衣服饰单品子空间权重矩阵，/>表示提取到的标题文本特征，/>表示生成查询矩阵的权重，/>表示生成键矩阵的权重，/>表示生成值矩阵的权重，/>表示/>的第m列向量，d_k为比例缩放因子；同样地，得到下衣服饰单品的子空间权重矩阵/> 表示实数集，/>表示实数集大小为C×1。

5.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法，其特征在于，在所述步骤4中，进行融合后的上衣服饰单品的多模态特征表示如下式所示：