CN112860928A

CN112860928A - 一种基于类别感知图神经网络的服饰检索方法

Info

Publication number: CN112860928A
Application number: CN202110170942.4A
Authority: CN
Inventors: 井佩光; 张景; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-05-28

Abstract

本发明提供了一种基于类别感知图神经网络的服饰检索方法，所述方法包括以下步骤：提取视觉特征和标题文本特征；通过图卷积网络建立类别信息的交互，并将得到的类别特征与融合后的多模态特征进行结合，作为后续高阶关联性构建网络的输入特征；利用自动编码器网络进行单品的视觉特征和标题文本特征两个模态特征的融合；将经过上述阶段融合后的特征通过高阶关联性构建网络建立单品之间的高阶关联性并得到最终的兼容度分数；针对检索的单品计算得到该单品与数据库中其它单品的兼容度分数将兼容分数高的单品挑选作为检索结果。

Description

一种基于类别感知图神经网络的服饰检索方法

技术领域

本发明涉及多媒体环境下的时尚检索领域，尤其涉及一种以时尚兼容度为衡量指标的基于类别感知图神经网络的服饰检索方法。

背景技术

随着互联网和人工智能技术的不断创新发展，多媒体信息处理技术呈现蓬勃发展的态势。时尚购物网站和电商行业的兴起，以及时尚分析中相关数据集的公开，推动着多媒体时尚领域相关技术的探索和进步。日常生活中，人们对于线上时尚购物网站中相关搭配的挑选需求也不断的改变，每个人的时尚敏感度不同，但是对于一些特定场合需要进行符合时宜的穿搭，因此提供一个科学性的参考是非常有意义和价值的。

多模态数据是从不同的角度对单品进行描述，现存的算法中对于多模态信息的利用是不充分的，相关研究中，类别信息是作为普通的文本描述特征，并不能充分利用类别的语义信息，使得检索的精度较低，无法满足实际应用中的多种需要。

发明内容

本发明提供了一种以时尚兼容度为衡量指标的基于类别感知图神经网络的服饰检索方法，提高了检索精度，满足了实际应用中的需要，详见下文描述：

一种基于类别感知图神经网络的服饰检索方法，所述方法包括以下步骤：

提取视觉特征和标题文本特征；

通过图卷积网络建立类别信息的交互，并将得到的类别特征与融合后的多模态特征进行结合，作为后续高阶关联性构建网络的输入特征；

利用自动编码器网络进行单品的视觉特征和标题文本特征两个模态特征的融合；

将经过上述阶段融合后的特征通过高阶关联性构建网络建立单品之间的高阶关联性并得到最终的兼容度分数；

针对检索的单品计算得到该单品与数据库中其它单品的兼容度分数将兼容分数高的单品挑选作为检索结果。

其中，所述对标题文本特征的提取采用注意力机制和双向长短期记忆网络。

进一步地，所述自动编码器网络由内部编码器网络和外部编码器网络构成，

内部编码器损失函数：

其中，

表示第v个模态的特征矩阵，是内部编码器的输入，

是每个单品的特征向量；

外部编码器损失函数：

其中，

是内部编码器网络中间层的低维特征表示矩阵，G^(R,v)＝[g₁ ^(R,v),...,g_n ^(R,v)]是每个模态低维特征矩阵相应的重构表示。

其中，所述高阶关联性构建网络的输入特征为：

E＝[t₁,...,t_T,b₁,...,b_B]，其中t₁,...t_T和b₁,...,b_B分别是上衣单品和下衣单品经过融合后的特征表示。

本发明提供的技术方案的有益效果是：

1、本发明采用自动编码器网络用于多模态特征的融合，保证多模态特征之间的一致性和完备性；

2、本发明加入了高层语义的类别交互信息完善对单品的特征表示；

3、本发明基于单品高阶关联性构建，通过图神经网络建立邻接关联信息的传递得到单品高阶信息传递后新的表示；

4、本发明将不同模态的时尚数据映射到一个统一的特征空间，并通过高阶关联性构建从而能够更加精确的进行兼容度分数的度量，并以此为依据进行服装搭配的检索，从而有效的提升了检索的效率和准确率。

附图说明

图1为一种基于类别感知图神经网络的服饰检索方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

区别于传统的基于图像的相似度从同类的时尚单品中检索出相似的单品，本发明实施例建立了一个以时尚兼容度分数为衡量指标的时尚检索模型来解决时尚领域中单品的搭配问题。通过融合时尚信息的多模态数据构建特征，将不同模态的数据映射到一个统一的特征空间，加入有着更高级语义的类别信息提升特征的表现程度，并通过高阶关联性构建网络构建单品之间的高阶关联性得到单品有着丰富信息的特征，从而有效的提升了单品间兼容度计算的准确率，提高了时尚检索的有效性和准确性。

本发明的服饰检索方法为用户提供了灵活多变的数据检索和分析工具，帮助用户在海量的服装数据中检索出得体的搭配单品，提升用户体验，在大数据时代的时尚行业中具有非常实际的应用价值。

实施例1

本发明实施例提供了一种基于类别感知图神经网络的服饰检索方法，参见图1，该方法包括以下步骤：

101：提取视觉特征和标题文本特征；

102：通过图卷积网络建立类别信息的交互，并将得到的类别信息与融合后的多模态特征进行结合，作为后续高阶关联性构建网络的输入特征；

其中，类别信息可以为单品的类别信息，例如：牛仔裤、短裙、毛衣等，类别信息指通过利用Glove模型得到的单品类别的特征，每一个类别对应一个向量叫做类别特征，经过图神经网络建立特征之间的交互得到新的类别特征。

103：利用自动编码器网络进行单品的视觉特征和标题文本特征两个模态特征的融合；

104：将经过上述阶段融合后的特征通过高阶关联性构建网络建立单品之间的高阶关联性并得到最终的兼容度分数；

其中，高阶关联性构建网络也是由图卷积网络构成，高阶关联性构建网络的实现过程利用图卷积神经网络。

105：针对检索的单品计算得到该单品与数据库中其它单品的兼容度分数将兼容分数高的单品挑选作为检索结果。

综上所述，本发明实施例通过上述步骤101-步骤105进行多模态信息的利用，通过自动编码器网络进行多模态特征数据之间的交互融合，同时将单品类别信息作为高层语义通过图神经网络建立类别间的交互关系，并将经过处理的特征通过图神经网络得到单品的多层的表示并建立单品高阶关联性得到单品之间的兼容度分数作为单品检索的衡量指标。

实施例2

下面结合计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：使用在ImageNet上预训练的深度神经网络Inception-V3进行视觉特征的提取，得到了2048D的视觉特征，对标题文本特征的提取，用到了基于注意力机制(Attention)和双向长短期记忆网络(Bi-LSTM)，最终得到300D的文本特征向量；

202：对类别之间交互信息的处理用到了图卷积神经网络(Graph ConvolutionalNetworks，简称GCN)网络，单品的类别特征向量矩阵表示为

其中N和F分别为样本的个数和特征向量的维度，包含了图中所有节点的特征，

为实数域，GCN网络在其中一层的矩阵形式表达式如下：

其中，

为第s层的归一化的邻接矩阵，其中

为邻接矩阵，

为对角度矩阵，对角线元素的值为D_ii＝∑_jA_1(i,j)，邻接信息的深度由图神经网络的深度S来控制。

表示q层当中所有可训练的参数，F'表示权重矩阵的维度。

是第q层的特征矩阵，

是第q+1层的特征矩阵。ReLU表示非线性激活函数。将单品的原始特征矩阵C转换为包含其兼容单品信息的新的特征表示矩阵

Θ_s＝{Θ_s ⁽¹⁾,Θ_s ⁽²⁾,...,Θ_s ^(q)}为图神经网络参数，最终得到有交互信息的类别特征矩阵。

203：用于多模态信息融合的自动编码器网络由内部编码器网络和外部编码器网络构成；其中，内部编码器损失函数：

其中，

表示第v个模态的特征矩阵，是内部编码器的输入，其中的

是每个单品的特征向量，d_v、V和n分别表示特征向量的维度、模态数和样本数。Q^(K,v)＝[q₁ ^(K,v),q₂ ^(K,v),...,q_n ^(K,v)]是由内部编码器得到的特征矩阵相应的重构表示，q_i ^(K,v)＝a(W_in ^(K)q_i ^(K-1,v)+b_in ^(K,v))是第v个模态的第i个样本在网络第K层重构的输出向量，其中a为非线性激活函数。

是内部自动编码器的所有变量集合，即有K层的非线性转换，W_in ^(k,v)和b_in ^(k,v)分别是第v个模态在网络第k层的权重矩阵和偏置。

代表F范数的平方。

其中，外部编码器损失函数：

其中，

是内部编码器网络中间层的低维特征表示矩阵，G^(R,v)＝[g₁ ^(R,v),...,g_n ^(R,v)]是每个模态低维特征矩阵相应的重构表示，其中的g_i ^(R,v)＝a(W_out ^(R)g_i ^(R-1,v)+b_out ^(R ^,v))是第v个模态的第i个样本在网络第R层重构的输出向量，其中a为非线性激活函数，G^(0,v)是外部编码器的输入。

是外部自动编码器所有的变量集合，即有R层非线性转换，W_out ^(r,v)和b_out ^(r,v)分别是第v个模态在网络第r层的权重矩阵和偏置。

代表F范数的平方。通过外部编码器得到的矩阵

即多模态融合后的低维特征矩阵，其中p为潜在表示特征的维度。

204：高阶关联构建网络的输入E＝[t₁,...,t_T,b₁,...,b_B]，其中t₁,...t_T和b₁,...,b_B分别是上衣单品和下衣单品经过前面所述网络融合后的特征表示，E作为单品的表示输入到一个基于图卷积神经网络的信息传递结构当中。

对于相互关联的上衣单品i和下衣单品j，由下衣单品j到上衣单品i以及上衣单品的自连接性的信息传递表达式为：

m^(l) _i←j＝p_ij(W_cf1 ^(l)t_i ^(l-1)+W_cf2 ^(l)(t_i ^(l-1)e b_j ^(l-1))) (4)

m^(l) _i←i＝W_cf1 ^(l)t_i ^(l-1) (5)

其中，W_cf1和W_cf2是网络中的可训练权重矩阵，t_i ^(l-1)和b_j ^(l-1)是由前面的信息传递过程得到的单品的表示，这个表示中包含了l-1层邻域间的相关性。p_ij设置为

其中

和

分别表示为与单品i和单品j直接连接的邻域中的单品数量，e表示元素之间的点积，以上衣单品为例，经过l层的信息传递，上衣单品i表示为：

其中，LeakyReLU为激活函数，令Θ_cf＝{E,W_cf1,W_cf2}是协同过滤图神经网络所有可训练变量的集合，相似的可以得到下衣单品j的表示。

由此获得了带有高阶关联性的单品的特征表示。矩阵形式的信息传递过程可由如下形式表示：

其中，Ε^(l)是经过l层的信息传递后的单品的表示，Ε⁽⁰⁾是未构建高阶关联性的特征表示，I表示单位矩阵，

表示构建单品的图神经网络的归一化拉普拉斯矩阵可由如下形式表示：

其中，U表示单品之间的交互矩阵，0表示全零矩阵。D₂表示对角度矩阵，第t个对角元素为D_ii＝∑_jA_2(i,j)。

205：将公式的目标项整合到一起，得到如下损失函数：

其中，

表示成对的训练数据，k表示未与上衣单品搭配过的下衣单品，

表示搭配过的单品，

表示未搭配过的单品，Θ_s、Θ_in、Θ_out、Θ_cf代表网络中所有可训练的模型参数，

表示F-范数的平方。λ、β、α、γ控制可训练参数避免过拟合。

206：通过进行合理的参数设置对模型进行训练，最终结果以“受试者工作特征”曲线下的面积AUC(Area Under roc Curve，简称AUC)作为衡量指标；

207：通过上述计算，得到单品最终的特征表示。针对检索的单品，计算得到该单品与数据库中其它单品的兼容度分数将兼容分数高的单品挑选作为检索结果。

综上所述，本发明实施例将自动编码器网络应用到特征融合中，进行多模态数据之间的交互融合，将单品类别信息通过图神经网络建立类别间的交互关系，得到交互后的类别信息特征，并将这个信息嵌入到融合后的多模态特征数据中，进行后续处理。

实施例3

下面结合具体的实验数据对本发明实施例1和2中的方案进行可行性验证，详见下文描述：

本发明实施例的检测性能通过ROC曲线(Receiver Operating CharacteristicCurve，简称ROC曲线)的AUC(Area Under roc Curve，简称AUC)作为衡量指标。本发明实施例使用来自FashionVC的20726个搭配数据作为数据集，它总共包含14870个上衣单品，13662个下衣单品，每个时尚单品包含视觉和标题文本多模态数据，同时还包含每个单品的类别信息。将数据库中的正样本对O按照9:1的比例分别分为O_train训练集，和O_test测试集。关于模型评估中的概念，TP(True Positives)，将正例正确预测为正例，FN(FalseNegatives)将正例错误预测为负例，FP(False Positives)将负例错误预测为正例，TN(True Negatives)将负例正确预测为负例，TP+FN表示实际数据集中正样本的数量，FP+TN表示实际数据集中负样本的数量，真阳性率TPR(True Positive Rate)和假阳性率FPR(False Positive Rate)的定义如下：

在ROC曲线中，每个点以对应的FPR值为横坐标，以TPR值为纵坐标。

AUC在本发明中的定义如下：

每一个上衣的评估对定义式如：

其中，δ(a)是一个指示器，当a大于零时值为1，否则为零，

为包含所有上衣单品的集合。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。