CN114565119A - 基于多模态图卷积网络的时尚兼容度预测方法 - Google Patents

基于多模态图卷积网络的时尚兼容度预测方法 Download PDF

Info

Publication number
CN114565119A
CN114565119A CN202111412999.7A CN202111412999A CN114565119A CN 114565119 A CN114565119 A CN 114565119A CN 202111412999 A CN202111412999 A CN 202111412999A CN 114565119 A CN114565119 A CN 114565119A
Authority
CN
China
Prior art keywords
representing
representation
matrix
category
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111412999.7A
Other languages
English (en)
Other versions
CN114565119B (zh
Inventor
汪少初
崔凯
井佩光
王少一
王晓华
周树旺
马骏
王燕午
张恺
吕沐�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Institute Of Surveying And Mapping Co ltd
Tianjin University
Original Assignee
Tianjin Institute Of Surveying And Mapping Co ltd
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Institute Of Surveying And Mapping Co ltd, Tianjin University filed Critical Tianjin Institute Of Surveying And Mapping Co ltd
Priority to CN202111412999.7A priority Critical patent/CN114565119B/zh
Publication of CN114565119A publication Critical patent/CN114565119A/zh
Application granted granted Critical
Publication of CN114565119B publication Critical patent/CN114565119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态图卷积网络的时尚兼容度预测方法,进行服饰单品的多模态信息的挖掘利用;利用服饰属性信息作为高级语义并融合视觉信息引导类别子空间生成,通过动态图卷积网络进行多模态特征数据之间的交互融合;加入自注意机制模块将标题文本特征引入到多模态融合中,最终将服饰单品的多模态特征表示通过时尚兼容度预测器获得服饰套装的兼容度分数。与现有技术相比,本发明通过充分利用服饰单品的视觉、文本及属性等多模态信息,构建时尚兼容度预测器实现兼容度分数的精确计算;为解决时尚兼容度预测问题提供了新的方法思路,有效地增强特征表示能力,保证多模态特征的一致性和完备性。

Description

基于多模态图卷积网络的时尚兼容度预测方法
技术领域
本发明涉及多媒体和大数据分析技术领域,特别是涉及一种基于AI算法的时尚兼容度预测方法。
背景技术
随着在线购物平台和时尚社交网站的蓬勃发展,时尚分析在多媒体计算研究领域受到广泛关注。合理的时尚搭配是指每个服饰单品之间在颜色、款式及风格上的协调与兼容。然而,在面对大量的服饰单品时,如何更好地选择服饰来搭配组合成一套合适得体的服装,依然是困扰很多人的难题。因此,建立科学有效的自动服饰搭配模型具有十分重要的意义。
多模态数据是通过不同领域或视角对同一个描述的对象获取到的数据,一般包括文本、图像、音频等信息。多模态融合可以实现对不同模态的数据进行整合,结合各模态数据的优点并减少在融合过程中造成的模态信息的损失,来达到增强特征表示的目的。目前,在时尚兼容度预测研究当中,对多模态信息的利用文本信息只是用来辅助的增强视觉信息从而提高模型准确性,文本特征和视觉特征的有效融合方式仍未得到充分的探索。
发明内容
基于上述背景技术中存在的问题,本发明提出了一种基于多模态图卷积网络的时尚兼容度预测方法,充分利用了服饰单品的多种模态信息实现时尚兼容度评分方法,从而解决服饰搭配评价问题。
本发明为解决上述问题而采取的技术方案如下:
一种基于多模态图卷积网络的时尚兼容度预测方法,该方法包括以下步骤:
步骤1、从包含多种模态信息的服饰单品数据中分别提取服饰单品包括上衣服饰单品和下衣服饰单品的视觉特征、标题文本特征,同时对所有单品的类别属性进行编码表示获取类别属性特征向量,实现服饰单品的多模态信息的挖掘利用;
步骤2、构建包含图像视觉特征、标题文本特征及类别属性特征向量的三元组数据集,划分成训练集、验证集和测试集,
将上衣服饰单品、下衣服饰单品的图像视觉特征分别嵌入到服饰类别属性特征向量中,得到融合视觉信息的类别子空间表示,并以此作为图节点输入到动态图卷积网络中,不断更新图节点特征表示与节点关联关系,获取不同类别子空间下的高级视觉语义表示;
步骤3、利用自注意力机制模块从服饰单品对应的标题文本特征中生成类别子空间权重,用于强化文本语义信息;
步骤4、将类别子空间权重与不同类别子空间下的高级视觉语义表示进行融合,获得上衣服饰单品、下衣服饰单品的多模态特征表示;
步骤5、将经过上述阶段融合后的多模态特征表示通过时尚兼容度预测器,计算得到最终的兼容度分数。
对视觉特征的提取采用VGGNet16模型,对标题文本特征的提取采用TextCNN模型,对类别属性信息的特征编码表示采用Glove Embedding模型。
在所述步骤2中,采用动态图卷积网络生成不同类别子空间下的高级视觉语义表示,如下式所示:
Figure BDA0003374246150000021
其中,
Figure BDA0003374246150000022
表示第i个上衣服饰单品经过动态图卷积网络后更新的节点特征矩阵表示,LReLU(·)表示激活函数LeakyReLU,
Figure BDA0003374246150000031
表示第l-1层动态图卷积网络的图节点特征表示,
Figure BDA0003374246150000032
表示第l层动态图卷积的邻接矩阵,
Figure BDA0003374246150000033
表示动态图卷积网络的状态更新权值,
Figure BDA0003374246150000034
表示Zt的第m列向量,C表示所有服饰类别属性的数量,dz表示动态图卷积网络的图节点特征维度;同样地,得到第j个下衣服饰单品关于不同类别子空间下的高级视觉语义表示
Figure BDA0003374246150000035
Figure BDA0003374246150000036
表示实数集,
Figure BDA0003374246150000037
分别表示实数集的大小为C×dz与dh×2dh
在所述步骤3中,类别子空间权重矩阵
Figure BDA0003374246150000038
如下式所示:
Figure BDA0003374246150000039
其中,
Figure BDA00033742461500000310
表示第i个上衣服饰单品子空间权重矩阵,
Figure BDA00033742461500000311
表示提取到的标题文本特征,
Figure BDA00033742461500000312
表示生成查询矩阵的权重,
Figure BDA00033742461500000313
表示生成键矩阵的权重,
Figure BDA00033742461500000314
表示生成值矩阵的权重,
Figure BDA00033742461500000315
表示
Figure BDA00033742461500000316
的第m列向量,dk为比例缩放因子;同样地,得到下衣服饰单品的子空间权重矩阵
Figure BDA00033742461500000317
Figure BDA00033742461500000318
表示实数集,
Figure BDA00033742461500000319
表示实数集大小为C×1。
在所述步骤4中,进行融合后的上衣服饰单品的多模态特征表示如下式所示:
Figure BDA00033742461500000320
其中,
Figure BDA00033742461500000321
表示第i个上衣服饰单品的多模态特征表示向量,
Figure BDA00033742461500000322
表示第i个上衣服饰单品的视觉特征表示向量,
Figure BDA00033742461500000323
表示第i个上衣服饰单品的视觉特征重构矩阵,
Figure BDA00033742461500000324
表示上衣关于不同类别子空间下的高级视觉语义表示矩阵,
Figure BDA00033742461500000325
表示上衣子空间权重矩阵,de表示多模态特征表示的维度;同样地,得到下衣服饰单品的多模态特征表示向量
Figure BDA00033742461500000326
Figure BDA00033742461500000327
表示实数集,
Figure BDA00033742461500000328
表示实数集为de维的列向量。
在所述步骤5中,兼容度分数的计算公式如下式所示:
Figure BDA0003374246150000041
其中,y表示服饰搭配的兼容度分数,
Figure BDA0003374246150000042
Figure BDA0003374246150000043
分别上衣服饰单品和下衣服饰单品的多模态特征表示,σ(·)表示Sigmoid函数,W1表示第一层全连接层的权重,b表示第一层全连接层的偏置项,W2表示第二层全连接层的权重。
与现有技术相比,本发明的有益效果如下:
1、实现了服饰属性信息的挖掘利用,同时强化了属性特征的语义引导性;
2、区别于传统的静态图卷积网络,基于服饰属性特征表示的关联性构建,通过动态图卷积网络不断更新图节点表示与节点关联关系,更加有效地学习不同类别子空间下的多模态特征表示;
3、通过充分利用服饰单品的视觉、文本及属性等多模态信息,提出了多模态特征融合方法,通过将服饰单品在多种模态下的特征表示映射到一个公共的特征表示空间,并通过构建时尚兼容度预测器实现兼容度分数的精确计算;为解决时尚兼容度预测问题提供了新的方法思路,有效地增强特征表示能力,保证多模态特征的一致性和完备性。
附图说明
图1为本发明的基于多模态图卷积网络的时尚兼容度预测方法整体流程图。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步详细描述。
如图1所示,为本发明的基于多模态图卷积网络的时尚兼容度预测方法整体流程图。以上衣、下衣两种服饰单品的兼容度分析为例,该流程具体包括以下步骤:
步骤1:从包含多种模态信息的服饰单品数据中分别获取所有服饰单品的图像视觉特征、标题文本特征及类别属性特征向量(由类别进行编码来表示);
使用在ImageNet上预训练的深度神经网络VGGNet16模型(Inception-V3)对上衣、下衣服饰单品图像进行视觉特征提取,将VGGNet16模型的倒数第二个全连接层得到的2048维特征向量经过特征降维后,获取300维的视觉特征向量
Figure BDA0003374246150000051
Figure BDA0003374246150000052
其中,
Figure BDA0003374246150000053
表示第i个上衣服饰单品的视觉特征表示向量,
Figure BDA0003374246150000054
表示第j个上衣服饰单品的视觉特征表示向量,i和j分别表示第i个上衣单品和第j个下衣单品;对标题文本信息,首先利用预训练得到300维word2vector向量对标题文本中的每个单词进行编码,然后将每个服饰单品的单词向量串联起来输入到TextCNN模型,获取400维的文本特征向量
Figure BDA0003374246150000055
Figure BDA0003374246150000056
其中,
Figure BDA0003374246150000057
Figure BDA0003374246150000058
分别表示第i个上衣服饰单品和第j个下衣服饰单品的文本特征向量;同时,对所有单品的类别属性通过Glove Embedding模型进行编码表示,获取300维的类别属性特征向量;
步骤2:构建包含图像视觉特征、标题文本特征及类别属性特征向量的三元组数据集,进行数据集划分训练集、验证集,测试集,具体包括:将服饰单品图像视觉特征分别嵌入到服饰类别属性特征向量中,得到融合视觉信息的类别子空间表示,并以此作为图节点输入到动态图卷积网络中,不断更新图节点特征表示与节点关联关系,获取不同类别子空间下的高级视觉语义表示;其中类别属性数据是经过统计筛选后的服饰单品类别属性,例如衬衫、夹克、牛仔裤等,类别属性数据是通过Glove Embedding模型得到的属性特征表示,每一个类别属性对应一个类别属性特征向量,利用动态图卷积网络建立节点特征之间的信息交互,得到更新后的节点特征;
针对不同类别子空间下的高级视觉语义表示,采用动态图卷积网络(DynamicGraph Convolutional Network,简称DGCN)构建类别属性特征矩阵,类别属性特征矩阵U表示为:
Figure BDA0003374246150000059
将服饰属性特征矩阵U分别与上衣、下衣服饰单品的视觉特征重构矩阵
Figure BDA00033742461500000510
Figure BDA00033742461500000511
进行哈达玛乘积运算(Hadamard Product),其中,C表示所有服饰类别属性的数量,dv表示视觉特征向量的维度,du表示属性特征向量的维度,
Figure BDA0003374246150000061
表示实数域,将上衣、下衣服饰单品的视觉特征分别嵌入到服饰属性特征向量中,进行动态图卷积网络的节点输入重构,得到融合视觉信息的类别子空间表示,以上衣的特征融合表示计算为例,如公式(1)所示:
Figure BDA0003374246150000062
其中,
Figure BDA0003374246150000063
表示第i个上衣的融合视觉信息的类别子空间表示矩阵,
Figure BDA0003374246150000064
表示第i个上衣服饰单品的视觉特征重构矩阵,U表示服饰属性特征,dv表示视觉特征向量的维度,且dv=du
首先,将上衣融合视觉信息的类别子空间表示矩阵
Figure BDA0003374246150000065
作为动态图卷积网络的输入,进行输入图节点特征的初始化计算,从而得到初始化后的图节点特征表示矩阵
Figure BDA0003374246150000066
如公式(2)所示:
Figure BDA0003374246150000067
其中,
Figure BDA0003374246150000068
表示经过初始化后的图节点特征表示,LReLU(·)表示激活函数LeakyReLU,
Figure BDA0003374246150000069
表示初始化的图邻接矩阵,
Figure BDA00033742461500000610
表示初始化的图状态更新权值,
Figure BDA00033742461500000611
(m=0,1,...,C-1)表示
Figure BDA00033742461500000612
的第m列向量,C表示所有服饰类别属性的数量,dh表示初始化后图节点特征维度;
然后,将初始化后的图节点特征表示
Figure BDA00033742461500000613
输入到动态图卷积网络中,学习不同类别子空间下的高级视觉语义表示,通过将每一个属性向量进行融合从而获得全局属性特征向量的方式,更好地学习类别属性之间的相关性,实现动态更新后的动态图卷积网络的邻接矩阵,如公式(3)所示:
Figure BDA00033742461500000614
其中,
Figure BDA0003374246150000071
表示第l层动态图卷积的邻接矩阵,l=1,2,...,N表示动态图卷积网络的层数,
Figure BDA0003374246150000072
表示第l层构造的动态关联矩阵
Figure BDA0003374246150000073
的卷积层的权值,
Figure BDA0003374246150000074
是由
Figure BDA0003374246150000075
及其全局表示
Figure BDA0003374246150000076
进行拼接得到的,全局表示
Figure BDA0003374246150000077
是由
Figure BDA0003374246150000078
经过全局平均池化和卷积层串联计算得到的。
以上衣为例,经过动态图卷积网络后,得到不同类别子空间下的高级视觉语义表示Zt,如公式(4)所示:
Figure BDA0003374246150000079
其中,
Figure BDA00033742461500000710
表示第i个上衣服饰单品经过动态图卷积网络后更新的节点特征矩阵表示,即不同类别子空间下的高级视觉语义表示,LReLU(·)表示激活函数LeakyReLU,
Figure BDA00033742461500000711
表示第l-1层动态图卷积网络的图节点特征表示,
Figure BDA00033742461500000712
表示第l层动态图卷积的邻接矩阵,
Figure BDA00033742461500000713
表示动态图卷积网络的状态更新权值,
Figure BDA00033742461500000714
(m=0,1,...,C-1)表示Zt的第m列向量,C表示所有服饰类别属性的数量,dz表示动态图卷积网络的图节点特征维度。
同样地,进行上述计算,得到第j个下衣服饰单品关于不同类别子空间下的高级视觉语义表示
Figure BDA00033742461500000715
步骤3:利用自注意力机制从服饰单品对应的标题文本特征中生成类别子空间权重;
利用自注意力机制模块将上衣、下衣服饰单品的标题文本特征生成类别子空间权重,多头注意力机制(Multi-Head Attention)编码网络φ的编码规则,如公式5所示:
Figure BDA00033742461500000716
其中,(Q,K,V)代表输入向量,分别表示查询矩阵Query,值矩阵Value,键矩阵(Key),为了防止梯度消失,引入比例缩放因子dk
为了强化文本语义信息的作用,利用提取到的标题文本特征
Figure BDA00033742461500000717
学习子空间权重矩阵
Figure BDA0003374246150000081
以上衣的类别子空间权重生成为例,如公式(6)所示:
Figure BDA0003374246150000082
其中,
Figure BDA0003374246150000083
表示第i个上衣服饰单品子空间权重矩阵,利用ct生成键矩阵、值矩阵,查询矩阵,
Figure BDA0003374246150000084
表示生成查询矩阵的权重,
Figure BDA0003374246150000085
表示生成键矩阵的权重,
Figure BDA0003374246150000086
表示生成值矩阵的权重,
Figure BDA0003374246150000087
(m=0,1,...,C-1)表示
Figure BDA0003374246150000088
的第m列向量,为了防止梯度消失,引入比例缩放因子dk
同样地,进行上述计算,可得到第j个下衣服饰单品的子空间权重矩阵
Figure BDA0003374246150000089
步骤4:将生成的类别子空间权重与不同类别子空间下的高级视觉语义表示进行融合,由此获得上衣、下衣服饰单品的多模态特征表示;以上衣的多模态特征表示为例,如公式(7)所示:
Figure BDA00033742461500000810
其中,
Figure BDA00033742461500000811
表示第i个上衣服饰单品的多模态特征表示向量,
Figure BDA00033742461500000812
表示第i个上衣服饰单品的视觉特征表示向量,
Figure BDA00033742461500000813
表示第i个上衣服饰单品的视觉特征重构矩阵,
Figure BDA00033742461500000814
表示上衣关于不同类别子空间下的高级视觉语义表示矩阵,
Figure BDA00033742461500000815
表示上衣子空间权重矩阵,de表示多模态特征表示的维度。
同样地,进行上述计算,得到第j个下衣服饰单品的多模态特征表示向量
Figure BDA00033742461500000816
步骤5:将多模态特征表示通过时尚兼容度预测器计算,得到最终的兼容度分数;其中,时尚兼容度预测器是由一个多层感知机构成;
将上衣和下衣服饰单品的多模态特征表示拼接后,输入到多层感知机中进行兼容度计算,如下公式(8)所示:
Figure BDA00033742461500000817
其中,y表示服饰搭配的兼容度分数,
Figure BDA0003374246150000091
Figure BDA0003374246150000092
分别上衣和下衣服饰单品的多模态特征表示,σ(·)表示Sigmoid函数,W1表示第一层全连接层的权重,b表示第一层全连接层的偏置项,W2表示第二层全连接层的权重;
将公式的目标项整合到一起,得到如公式(9)所示的损失函数:
Figure BDA0003374246150000093
其中,
Figure BDA0003374246150000094
表示服饰单品组合的训练数据,
Figure BDA0003374246150000095
表示搭配过的上衣下衣单品组合,
Figure BDA0003374246150000096
表示未搭配过的上衣下衣单品组合,θ表示网络中所有可训练的模型参数,
Figure BDA0003374246150000097
表示F-范数的平方,λ控制可训练参数避免过拟合;
通过进行合理的参数设置对模型进行训练,最终结果以受试者工作特征曲线下的面积AUC作为模型性能评估指标。
本发明实施例描述如下:
使用来自从Polyvore网站爬取得到的FashionVC的20726套服饰搭配作为数据集,它总共包含14870个上衣单品与13662个下衣单品,其中每个单品都包含图片、标题文本及所属类别信息等多模态数据。随机地将上衣-下衣的搭配集合P分为三个子集:按照80%作为训练集,10%作为验证集,10%作为测试集划分数据集,且分别用Ptrain、Pvalid和Ptest来表示。使用T={t1,t2,...,tNt}和B={b1,b2,...,bNb}分别代表上衣和下衣的单品集合,其中,Nt和Nb分别为对应的集合中时尚单品的数量。使用
Figure BDA0003374246150000098
Figure BDA0003374246150000099
来表示从Polyvore时尚网站上爬取的正例上衣-下衣套装集合。其中,M为套装的总数量。据此,对于给定的上衣ti和下衣bj,得到一个正例的下衣集合
Figure BDA00033742461500000910
假定正例集合
Figure BDA00033742461500000911
中上衣搭配的下衣比其它未搭配过的下衣更为兼容,由此构建训练集,三元组(i,j,k)表示下衣bj比下衣bk与上衣ti更加搭配的预测结果如公式(10)所示:
Figure BDA0003374246150000101
再根据公式(10)生成以三元组为子集的集合DStrain、DSvalid和DStest。并且,对于每组正例的上衣-下衣搭配(ti和bj),随机地选择M个下衣bk来组成M个三元组(i,j,k)。其中,M设置为3,且
Figure BDA0003374246150000102
本发明实施例的检测性能采用ROC曲线下与坐标轴围成的面积(Area Under theROC Curve,简称AUC)作为模型的评价指标。AUC的计算如公式(11)所示:
Figure BDA0003374246150000103
其中,T为包含所有上衣单品的集合,E(i)为测试集合中与上衣服饰单品i进行配对的下衣服饰单品所组成的评估对集合的大小,即所有(j,k)所组成的集合为评估对集合,δ(α)为指示函数,当α为真时值为1,否则为0,yij为正样本对兼容性得分的预测值,yik为负样本对i兼容性得分的预测值。
对于测试集合中每个上衣的评估对定义式,如下公式(12)所示:
Figure BDA0003374246150000104
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于多模态图卷积网络的时尚兼容度预测方法,其特征在于,该方法包括以下步骤:
步骤1、从包含多种模态信息的服饰单品数据中分别提取服饰单品包括上衣服饰单品和下衣服饰单品的视觉特征、标题文本特征,同时对所有单品的类别属性进行编码表示获取类别属性特征向量,实现服饰单品的多模态信息的挖掘利用;
步骤2、构建包含图像视觉特征、标题文本特征及类别属性特征向量的三元组数据集,划分成训练集、验证集和测试集,
将上衣服饰单品、下衣服饰单品的图像视觉特征分别嵌入到服饰类别属性特征向量中,得到融合视觉信息的类别子空间表示,并以此作为图节点输入到动态图卷积网络中,不断更新图节点特征表示与节点关联关系,获取不同类别子空间下的高级视觉语义表示;
步骤3、利用自注意力机制模块从服饰单品对应的标题文本特征中生成类别子空间权重,用于强化文本语义信息;
步骤4、将类别子空间权重与不同类别子空间下的高级视觉语义表示进行融合,获得上衣服饰单品、下衣服饰单品的多模态特征表示;
步骤5、将经过上述阶段融合后的多模态特征表示通过时尚兼容度预测器,计算得到最终的兼容度分数。
2.如权利要求1所述的一基于多模态图卷积网络的时尚兼容度预测方法,其特征在于,对视觉特征的提取采用VGGNet16模型,对标题文本特征的提取采用TextCNN模型,对类别属性信息的特征编码表示采用Glove Embedding模型。
3.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法,其特征在于,在所述步骤2中,采用动态图卷积网络生成不同类别子空间下的高级视觉语义表示,如下式所示:
Figure FDA0003374246140000011
其中,
Figure FDA0003374246140000021
表示第i个上衣服饰单品经过动态图卷积网络后更新的节点特征矩阵表示,LReLU(·)表示激活函数LeakyReLU,
Figure FDA0003374246140000022
表示第l-1层动态图卷积网络的图节点特征表示,
Figure FDA0003374246140000023
表示第l层动态图卷积的邻接矩阵,
Figure FDA0003374246140000024
表示动态图卷积网络的状态更新权值,
Figure FDA0003374246140000025
表示Zt的第m列向量,C表示所有服饰类别属性的数量,dz表示动态图卷积网络的图节点特征维度;同样地,得到第j个下衣服饰单品关于不同类别子空间下的高级视觉语义表示
Figure FDA0003374246140000026
Figure FDA0003374246140000027
表示实数集,
Figure FDA0003374246140000028
分别表示实数集的大小为C×dz与dh×2dh
4.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法,其特征在于,在所述步骤3中,类别子空间权重矩阵
Figure FDA0003374246140000029
如下式所示:
Figure FDA00033742461400000210
其中,
Figure FDA00033742461400000211
表示第i个上衣服饰单品子空间权重矩阵,
Figure FDA00033742461400000212
表示提取到的标题文本特征,
Figure FDA00033742461400000213
表示生成查询矩阵的权重,
Figure FDA00033742461400000214
表示生成键矩阵的权重,
Figure FDA00033742461400000215
表示生成值矩阵的权重,
Figure FDA00033742461400000216
表示
Figure FDA00033742461400000217
的第m列向量,dk为比例缩放因子;同样地,得到下衣服饰单品的子空间权重矩阵
Figure FDA00033742461400000218
Figure FDA00033742461400000219
表示实数集,
Figure FDA00033742461400000220
表示实数集大小为C×1。
5.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法,其特征在于,在所述步骤4中,进行融合后的上衣服饰单品的多模态特征表示如下式所示:
Figure FDA00033742461400000221
其中,
Figure FDA00033742461400000222
表示第i个上衣服饰单品的多模态特征表示向量,
Figure FDA00033742461400000223
表示第i个上衣服饰单品的视觉特征表示向量,
Figure FDA00033742461400000224
表示第i个上衣服饰单品的视觉特征重构矩阵,
Figure FDA00033742461400000225
表示上衣关于不同类别子空间下的高级视觉语义表示矩阵,
Figure FDA00033742461400000226
表示上衣子空间权重矩阵,de表示多模态特征表示的维度;同样地,得到下衣服饰单品的多模态特征表示向量
Figure FDA0003374246140000031
Figure FDA0003374246140000032
表示实数集,
Figure FDA0003374246140000033
表示实数集为de维的列向量。
6.如权利要求1所述的一种基于多模态图卷积网络的时尚兼容度预测方法,其特征在于,在所述步骤5中,兼容度分数的计算公式如下式所示:
Figure FDA0003374246140000034
其中,y表示服饰搭配的兼容度分数,
Figure FDA0003374246140000035
Figure FDA0003374246140000036
分别上衣服饰单品和下衣服饰单品的多模态特征表示,ReLU(·)表示激活函数ReLU,σ(·)表示Sigmoid函数,W1表示第一层全连接层的权重,b表示第一层全连接层的偏置项,W2表示第二层全连接层的权重。
CN202111412999.7A 2021-11-25 2021-11-25 基于多模态图卷积网络的时尚兼容度预测方法 Active CN114565119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111412999.7A CN114565119B (zh) 2021-11-25 2021-11-25 基于多模态图卷积网络的时尚兼容度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111412999.7A CN114565119B (zh) 2021-11-25 2021-11-25 基于多模态图卷积网络的时尚兼容度预测方法

Publications (2)

Publication Number Publication Date
CN114565119A true CN114565119A (zh) 2022-05-31
CN114565119B CN114565119B (zh) 2023-09-26

Family

ID=81711480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111412999.7A Active CN114565119B (zh) 2021-11-25 2021-11-25 基于多模态图卷积网络的时尚兼容度预测方法

Country Status (1)

Country Link
CN (1) CN114565119B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723843A (zh) * 2022-06-01 2022-07-08 广东时谛智能科技有限公司 多模态融合生成虚拟服装方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447379A (zh) * 2016-07-23 2017-02-22 上海工程技术大学 一种基于人体外观弱特征的时尚度评估方法
CN109583498A (zh) * 2018-11-29 2019-04-05 天津大学 一种基于低秩正则化特征增强表征的时尚兼容度预测方法
US20200160154A1 (en) * 2018-11-15 2020-05-21 Element Ai Inc. Systems and methods for assessing item compatibility
CN111400525A (zh) * 2020-03-20 2020-07-10 中国科学技术大学 基于视觉组合关系学习的时尚服装智能搭配与推荐方法
US20200257976A1 (en) * 2019-02-07 2020-08-13 Target Brands, Inc. Algorithmic apparel recommendation
CN111861672A (zh) * 2020-07-28 2020-10-30 青岛科技大学 基于多模态的生成式兼容性服装搭配方案生成方法及系统
CN112860928A (zh) * 2021-02-08 2021-05-28 天津大学 一种基于类别感知图神经网络的服饰检索方法
CN113393546A (zh) * 2021-05-17 2021-09-14 杭州电子科技大学 基于服装类别及纹理图案控制的时尚服装图像生成方法
US20210342701A1 (en) * 2020-05-04 2021-11-04 Adobe Inc. Deep learning based visual compatibility prediction for bundle recommendations

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447379A (zh) * 2016-07-23 2017-02-22 上海工程技术大学 一种基于人体外观弱特征的时尚度评估方法
US20200160154A1 (en) * 2018-11-15 2020-05-21 Element Ai Inc. Systems and methods for assessing item compatibility
CN109583498A (zh) * 2018-11-29 2019-04-05 天津大学 一种基于低秩正则化特征增强表征的时尚兼容度预测方法
US20200257976A1 (en) * 2019-02-07 2020-08-13 Target Brands, Inc. Algorithmic apparel recommendation
CN111400525A (zh) * 2020-03-20 2020-07-10 中国科学技术大学 基于视觉组合关系学习的时尚服装智能搭配与推荐方法
US20210342701A1 (en) * 2020-05-04 2021-11-04 Adobe Inc. Deep learning based visual compatibility prediction for bundle recommendations
CN111861672A (zh) * 2020-07-28 2020-10-30 青岛科技大学 基于多模态的生成式兼容性服装搭配方案生成方法及系统
CN112860928A (zh) * 2021-02-08 2021-05-28 天津大学 一种基于类别感知图神经网络的服饰检索方法
CN113393546A (zh) * 2021-05-17 2021-09-14 杭州电子科技大学 基于服装类别及纹理图案控制的时尚服装图像生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘玉杰;冯士贺;李宗民;李华;: "用于快速服装搭配的FMatchNet算法", 中国图象图形学报, no. 06, pages 137 - 144 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723843A (zh) * 2022-06-01 2022-07-08 广东时谛智能科技有限公司 多模态融合生成虚拟服装方法、装置、设备及存储介质
CN114723843B (zh) * 2022-06-01 2022-12-06 广东时谛智能科技有限公司 多模态融合生成虚拟服装方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114565119B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Cui et al. Dressing as a whole: Outfit compatibility learning based on node-wise graph neural networks
Liu et al. Toward AI fashion design: An Attribute-GAN model for clothing match
Chu et al. Image style classification based on learnt deep correlation features
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
Zhang et al. Facial expression recognition based on deep evolutional spatial-temporal networks
CN109754317B (zh) 融合评论的可解释性服装推荐方法、系统、设备及介质
Saito et al. Illustration2vec: a semantic vector representation of illustrations
Guo et al. Human attribute recognition by refining attention heat map
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN109670066A (zh) 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
CN112529768B (zh) 一种基于生成对抗网络的服装编辑和生成方法
CN109543602A (zh) 一种基于多视角图像特征分解的行人再识别方法
CN109993102A (zh) 相似人脸检索方法、装置及存储介质
Polanía et al. Learning fashion compatibility across apparel categories for outfit recommendation
He et al. FashionNet: Personalized outfit recommendation with deep neural network
Sapna et al. Recommendence and fashionsence: Online fashion advisor for offline experience
Chun et al. A novel clothing attribute representation network-based self-attention mechanism
CN111400525A (zh) 基于视觉组合关系学习的时尚服装智能搭配与推荐方法
Deng et al. Dynamic facial expression recognition based on deep learning
CN114565119A (zh) 基于多模态图卷积网络的时尚兼容度预测方法
CN107563305A (zh) 基于多样本扩充协同表示分类的人脸识别方法
Balim et al. Diagnosing fashion outfit compatibility with deep learning techniques
Lei et al. A new algorithm for sketch-based fashion image retrieval based on cross-domain transformation
Ly et al. Large‐Scale Coarse‐to‐Fine Object Retrieval Ontology and Deep Local Multitask Learning
Sulthana A review on the literature of fashion recommender system using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant