CN114758149A - 基于深度多模态特征融合的时尚兼容度分析方法和系统 - Google Patents

基于深度多模态特征融合的时尚兼容度分析方法和系统 Download PDF

Info

Publication number
CN114758149A
CN114758149A CN202210442703.4A CN202210442703A CN114758149A CN 114758149 A CN114758149 A CN 114758149A CN 202210442703 A CN202210442703 A CN 202210442703A CN 114758149 A CN114758149 A CN 114758149A
Authority
CN
China
Prior art keywords
feature
modal
fusion
visual
fashion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210442703.4A
Other languages
English (en)
Inventor
李云
王学军
井佩光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN202210442703.4A priority Critical patent/CN114758149A/zh
Publication of CN114758149A publication Critical patent/CN114758149A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了基于深度多模态特征融合的时尚兼容度分析方法和系统,通过样本特征提取网络,基于Resnet‑18的视觉特征提取网络,提取视觉特征和基于独热编码的文本特征提取网络,处理文本数据;在提取特征后将特征进行融合,所用方法分别为基于注意力机制的视觉特征和文本特征融合网络,将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络,加强视觉模态的特征表达;然后使用基于多层映射的特征表示网络将融合特征映射到多模态向量空间之中;最后使用基于融合特征兼容度计算网络,在多模态向量空间中拉近融合特征正对距离,扩大负对距离。在本申请中,能够合理的匹配时尚单品,提高时尚单品匹配结果的准确率。

Description

基于深度多模态特征融合的时尚兼容度分析方法和系统
技术领域
本申请属于计算机视觉及图像应用领域,具体涉及基于深度多模态特征融合的时尚兼容度分析方法和系统。
背景技术
一套合适的套装通常依赖于通过时尚单品之间的互补性进行一个好的匹配,因此研究一个自动衣服匹配算法是非常有意义的。现有对时尚兼容度问题的研究中,对时尚单品的多模态信息的融合问题研究的较少。而多模态信息是从不同的描述角度对同一件单品进行的特征的表达,不同的角度就包含了不同的信息,不同的信息进行融合就保证了单品特征的完整性。单品的特征表达是准确建立单品之间关联关系模型的前提和关键,因此多模态融合模块对算法模型至关重要。而针对另一个问题,单品的类别信息的利用,针对不同类别的单品,以往是通过将单品特征映射到一个潜在空间中,此时不同的单品基于的映射网络是相同的。那么假设在这样的一个潜在的空间中,单品之间通过某种计算方式得到的度量就代表单品之间的兼容性。综上所述,为了提高模型的准确度,本发明通过建立一个类别嵌入的空间,即不同的类别有不同的映射网络,这样不同类别的单品就可以映射到不同类别的空间中。在这样的空间中,假设存在某种度量能有效的衡量单品之间的兼容关系,从而能够更加准确的建立单品之间的兼容度算法模型。
发明内容
本申请的目的在于克服现有技术的不足,本申请提出了基于深度多模态特征融合的时尚兼容度分析方法和系统,通过样本特征提取网络,基于Resnet-18的视觉特征提取网络,提取视觉特征和基于独热编码的文本特征提取网络,在提取特征后将特征进行融合,所用方法分别为基于注意力机制的视觉特征和文本特征融合网络,将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络,加强视觉模态的特征表达;然后使用基于多层映射的特征表示网络将融合特征映射到多模态向量空间之中;最后使用基于融合特征兼容度计算网络,在多模态向量空间中拉近融合特征正对距离,扩大负对距离,本发明能够合理的匹配单品,提高时尚匹配结果的准确率。
为实现上述目的,本申请提供了如下方案:
一种基于深度多模态特征融合的时尚兼容度分析方法,具体包括如下步骤:
采集待测数据样本集;
基于所述待测数据样本集,对所述待测数据样本集进行样本特征提取网络训练,获取所述待测数据样本集内的待测数据样本特征;
基于所述待测数据样本特征进行特征融合网络训练,获取所述待测数据样本特征的模态特征表达数据;
基于所述模态特征表达数据,进行多层映射的特征表示网络训练,获取所述模态特征表达数据多层映射特征数据;
基于所述多层映射特征数据,进行融合特征兼容度计算网络训练,获取所述模态特征表达数据的多模态特征融合的时尚兼容度分析结果。
优选的,所述样本特征提取网络的训练方法包括:
采用Resnet-18提取时尚单品视觉特征,将最后一层的网络输出结果作为时尚单品的特征表达;
采用独热编码的方式将文本描述信息建立词汇表。
优选的,所述特征融合网络的训练方法包括:
采用注意力网络对模态特征进行学习。
优选的,所述模态特征包括文本模态和视觉模态。
优选的,从视觉模态到文本模态的转换可以表示为:
Figure BDA0003614677170000031
其中α表示文本模态,β表示为视觉模态,
Figure BDA0003614677170000032
两个模态的特征矩阵分别表示为
Figure BDA0003614677170000033
Figure BDA0003614677170000034
Querys矩阵定义为
Figure BDA0003614677170000035
Keys矩阵定义为
Figure BDA0003614677170000036
和Values矩阵定义为
Figure BDA0003614677170000037
其中的
Figure BDA0003614677170000038
Figure BDA0003614677170000039
是权重,为可学习的超参数;
经过所述注意力机制得到的特征Yα和原始模态的特征Xβ相加得到特征Fa
Fa=Yα+Xβ
在得到文本模态α和视觉模态β的跨模态的加和融合特征后,同时还通过视觉模态自身的注意力机制网络来加强视觉特征的表达能力,其过程与跨模态注意力机制相同,即将两个视觉特征进行注意力机制的计算,并将得到的特征定义为Sβ,通过残差结构,原始特征和自注意力机制得到的视觉特征加和得到特征Fb
Fb=Sβ+Xβ
优选的,所述多层映射特征表示网络的训练方法包括:
对特征Fa和特征Fb进行特征融合,首先将两个特征进行串联,将串联后的特征表示为Fconc;然后通过多层感知机得到多模态融合模块的最终的特征表示结果:
F=σ(WoFconc+bo)
其中,F为多模态融合模块最终的特征表示,Wo和bo为该网络的参数,σ为非线性的激活函数。
优选的,所述融合特征兼容度计算网络的训练方法包括:在多模态向量空间之中,使用距离度量作为融合特征的兼容度衡量标准。
为实现上述目的,本申请还提供了一种基于深度多模态特征融合的时尚兼容度分析系统,具体包括如下步骤:
包括:采集模块、样本特征提取模块、模态特征表达模块、多层映射特征模块和多模态特征融合兼容度分析模块;
所述采集模块用于采集待测数据样本集;
所述样本特征提取模块用于基于所述待测数据样本集,对所述待测数据样本集进行样本特征提取网络训练,获取所述待测数据样本集内的待测数据样本特征;
所述模态特征表达模块用于基于所述待测数据样本特征进行特征融合网络训练,获取所述待测数据样本特征的模态特征表达数据;
所述多层映射特征模块用于基于所述模态特征表达数据,进行多层映射的特征表示网络训练,获取所述模态特征表达数据多层映射特征数据;
所述多模态特征融合兼容度分析模块用于基于所述多层映射特征数据,进行融合特征兼容度计算网络训练,获取所述模态特征表达数据的多模态特征融合的时尚兼容度分析结果。
本申请公开了基于深度多模态特征融合的时尚兼容度分析方法和系统,属于时尚分析领域。
本申请的有益效果为:基于Resnet-18的视觉特征提取网络,提取视觉特征和基于独热编码的文本特征提取网络,将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络,加强视觉模态的特征表达,能够合理的匹配时尚单品,提高时尚单品匹配结果的准确率,具有广阔的推广空间和使用价值。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的基于深度多模态特征融合的时尚兼容度分析方法的流程示意图;
图2为本申请实施例中的基于深度多模态特征融合的时尚兼容度分析方法的待测服装图像数据集流程示意图;
图3为本申请实施例中的基于深度多模态特征融合的时尚兼容度分析方法的系统结构组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
如图1所示,一种基于深度多模态特征融合的时尚兼容度分析方法,方法包括:
样本特征提取网络,所用方法分别为基于Resnet-18的视觉特征提取网络,提取视觉特征和基于独热编码的文本特征提取网络,处理文本数据;
在提取特征后将特征融合,所用方法分别为基于注意力机制的视觉特征和文本特征融合网络,将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络,加强视觉模态的特征表达;
然后使用基于多层映射的特征表示网络将融合特征映射到多模态向量空间之中;
最后使用基于融合特征兼容度计算网络,在多模态向量空间中拉近融合特征正对距离,扩大负对距离。
在本发明具体实施过程中,特征提取网络的训练过程,包括:
时尚单品视觉特征提取采用Resnet-18网络,其中Resnet-18网络由一个7*7,步长为2,填充为3,通道数为64的最浅卷积层和四个包含两个残差块(每个残差块包含两层卷积)的层组成。
具体的,这四个层包括:
第一层由两个残差块组成。两个残差块结构一致。残差块由两个3*3,步长为1,填充为1,通道数为64卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
第二层由两个残差块组成。第一个残差块由一个3*3,步长为2,填充为1,通道数为128卷积层和一个3*3,步长为1,填充为1,通道数为128卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3,步长为1,填充为1,通道数为128卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
第三层由两个残差块组成。第一个残差块由一个3*3,步长为2,填充为1,通道数为256卷积层和一个3*3,步长为1,填充为1,通道数为256卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3,步长为1,填充为1,通道数为256卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
第四层由两个残差块组成。第一个残差块由一个3*3,步长为2,填充为1,通道数为512卷积层和一个3*3,步长为1,填充为1,通道数为512卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3,步长为1,填充为1,通道数为512卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
该网络将最后一层的输出结果作为时尚单品的特征表达,并最终得到2048维的时尚单品特征向量。
在提取视觉特征的同时,本发明采用one-hot独热编码的对文本进行数据处理,将文本描述信息建立词汇表,并过滤掉在单品中出现少于5次的单词,最终得到了2728个单词的单词表,因此将每一个时尚单品的文本描述信息表示为2728维的向量。
在得到视觉特征和文本特征后,本发明采用注意力机制学习两个不同模态特征,加强目标模态的特征表达。α和β分别表示为单品文本模态和单品视觉模态。从模态β到α的潜在转换可以表示为
Figure BDA0003614677170000091
两个模态的特征矩阵分别表示为
Figure BDA0003614677170000092
Figure BDA0003614677170000093
Querys矩阵定义为
Figure BDA0003614677170000094
Keys矩阵定义为
Figure BDA0003614677170000095
和Values矩阵定义为
Figure BDA0003614677170000096
其中的
Figure BDA0003614677170000097
Figure BDA0003614677170000098
是权重,为可学习的超参数;
经过跨模态注意力机制得到的特征Yα和原始模态的特征Xα相加得到特征Fa
Fa=Yα+Xβ
在得到单品文本模态α和单品视觉模态β的跨模态的加和融合特征后,同时还通过视觉模态自身的注意力机制网络来加强视觉特征的表达能力。其过程与上述跨模态注意力机制相同,即将两个视觉特征进行注意力机制的计算,并将得到的特征定义为Sβ。通过残差结构,原始特征和自注意力机制得到的视觉特征加和得到特征Fb
Fb=Sβ+Xβ
得到Fa和Fb之后,将两个特征进行融合,首先将两个特征进行串联,将串联后的特征表示为Fconc。本发明通过多层映射网络将特征映射到多模态向量空间之中,得到最终的特征表示结果:
F=σ(WoFconc+bo)
其中,F为多模态融合模块最终的特征表示,Wo和bo为该网络的参数,σ为非线性的激活函数。
在多模态向量空间之中,本发明基于距离度量作为融合特征的兼容度衡量标准。例如一组时尚单品的特征的三元组可以定义为{xi (u),xj (v),xk (v)},有着如下的关系:目标单品i属于类型u,单品j和单品k属于一个不同的类型v。搭配对(xi,xj)是兼容的,同时出现在同一个套装中,意味着应该迫使两个单品在多模态向量空间中彼此靠近,而xk是从与xj相同类型中随机挑选出来的单品,迫使它们在多模态向量空间中彼此疏远。三元损失的表示形式如下:
l(i,j,k)=max{0,d(i,j)-d(i,k)+μ}
其中的μ为边界值。基于
Figure BDA0003614677170000101
来代表类别特定的多模态向量空间,这样的空间中,类型u和v是搭配的。
实施例二
如图2所示,待测服装图像的时尚兼容度分析广泛地应用在计算机视觉与图形领域,通过计算时尚单品的多模态信息的融合问题,不同的描述角度对同一件时尚单品进行的特征的表达,不同的角度就包含了不同的时尚单品信息,不同的时尚单品信息进行融合就保证了单品特征的完整性。针对不同类别的服装单品,通过样本特征提取网络,基于Resnet-18的视觉特征提取网络,提取视觉特征和基于独热编码的文本特征提取网络,基于注意力机制的视觉特征和文本特征融合网络,加强时尚单品视觉模态的特征表达,用基于融合特征兼容度计算网络,在多模态向量空间中拉近融合特征正对距离,扩大负对距离,本发明能够合理的匹配单品,提高时尚匹配结果的准确率,实现自动匹配时尚单品。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本实施例中,具体实现步骤包括如图2所示,样本特征提取网络,所用方法分别为基于Resnet-18的视觉特征提取网络,提取视觉特征和基于独热编码的文本特征提取网络,处理文本数据;
在提取特征后将特征融合,所用方法分别为基于注意力机制的视觉特征和文本特征融合网络,将提取的视觉特征和文本特征融合和基于注意力机制的视觉特征自我注意网络,加强视觉模态的特征表达;
然后使用基于多层映射的特征表示网络将融合特征映射到多模态向量空间之中;
最后使用基于融合特征兼容度计算网络,在多模态向量空间中拉近融合特征正对距离,扩大负对距离。
在本发明具体实施过程中,特征提取网络的训练过程,包括:
时尚单品视觉特征提取采用Resnet-18网络,其中Resnet-18网络由一个7*7,步长为2,填充为3,通道数为64的最浅卷积层和四个包含两个残差块(每个残差块包含两层卷积)的层组成。
具体的,这四个层包括:
第一层由两个残差块组成。两个残差块结构一致。残差块由两个3*3,步长为1,填充为1,通道数为64卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
第二层由两个残差块组成。第一个残差块由一个3*3,步长为2,填充为1,通道数为128卷积层和一个3*3,步长为1,填充为1,通道数为128卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3,步长为1,填充为1,通道数为128卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
第三层由两个残差块组成。第一个残差块由一个3*3,步长为2,填充为1,通道数为256卷积层和一个3*3,步长为1,填充为1,通道数为256卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3,步长为1,填充为1,通道数为256卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
第四层由两个残差块组成。第一个残差块由一个3*3,步长为2,填充为1,通道数为512卷积层和一个3*3,步长为1,填充为1,通道数为512卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。第二个残差块由两个个3*3,步长为1,填充为1,通道数为512卷积层组成,并将这经过两个卷积得到的输出和输入相加作为下一个残差块输入。
该网络将最后一层的输出结果作为时尚单品的特征表达,并最终得到2048维的时尚单品特征向量。
在提取视觉特征的同时,本发明采用one-hot独热编码的对文本进行数据处理,将文本描述信息建立词汇表,并过滤掉在单品中出现少于5次的单词,最终得到了2728个单词的单词表,因此将每一个时尚单品的文本描述信息表示为2728维的向量。
在得到视觉特征和文本特征后,本发明采用注意力机制学习两个不同模态特征,加强目标模态的特征表达。α和β分别表示为单品文本模态和单品视觉模态。从模态β到α的潜在转换可以表示为
Figure BDA0003614677170000131
两个模态的特征矩阵分别表示为
Figure BDA0003614677170000132
Figure BDA0003614677170000133
Querys矩阵定义为
Figure BDA0003614677170000134
Keys矩阵定义为
Figure BDA0003614677170000135
和Values矩阵定义为
Figure BDA0003614677170000136
其中的
Figure BDA0003614677170000137
Figure BDA0003614677170000138
是权重,为可学习的超参数;
经过跨模态注意力机制得到的特征Yα和原始模态的特征Xα相加得到特征Fa
Fa=Yα+Xβ
在得到单品文本模态α和单品视觉模态β的跨模态的加和融合特征后,同时还通过视觉模态自身的注意力机制网络来加强视觉特征的表达能力。其过程与上述跨模态注意力机制相同,即将两个视觉特征进行注意力机制的计算,并将得到的特征定义为Sβ。通过残差结构,原始特征和自注意力机制得到的视觉特征加和得到特征Fb
Fb=Sβ+Xβ
得到Fa和Fb之后,将两个特征进行融合,首先将两个特征进行串联,将串联后的特征表示为Fconc。本发明通过多层映射网络将特征映射到多模态向量空间之中,得到最终的特征表示结果:
F=σ(WoFconc+bo)
其中,F为多模态融合模块最终的特征表示,Wo和bo为该网络的参数,σ为非线性的激活函数。
在多模态向量空间之中,本发明基于距离度量作为融合特征的兼容度衡量标准。例如一组时尚单品的特征的三元组可以定义为{xi (u),xj (v),xk (v)},有着如下的关系:目标单品i属于类型u,单品j和单品k属于一个不同的类型v。搭配对(xi,xj)是兼容的,同时出现在同一个套装中,意味着应该迫使两个单品在多模态向量空间中彼此靠近,而xk是从与xj相同类型中随机挑选出来的单品,迫使它们在多模态向量空间中彼此疏远。三元损失的表示形式如下:
l(i,j,k)=max{0,d(i,j)-d(i,k)+μ}
其中的μ为边界值。基于
Figure BDA0003614677170000141
来代表类别特定的多模态向量空间,这样的空间中,类型u和v是搭配的。
实施例三为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
如图3所示,一种基于深度多模态特征融合的时尚兼容度分析系统,包括:采集模块、样本特征提取模块、模态特征表达模块、多层映射特征模块和多模态特征融合兼容度分析模块;
采集模块用于采集待测数据样本集;
样本特征提取模块用于基于待测数据样本集,对待测数据样本集进行样本特征提取网络训练,获取待测数据样本集内的待测数据样本特征;
模态特征表达模块用于基于待测数据样本特征进行特征融合网络训练,获取待测数据样本特征的模态特征表达数据;
多层映射特征模块用于基于模态特征表达数据,进行多层映射的特征表示网络训练,获取模态特征表达数据多层映射特征数据;
多模态特征融合兼容度分析模块用于基于多层映射特征数据,进行融合特征兼容度计算网络训练,获取模态特征表达数据的多模态特征融合的时尚兼容度分析结果。
另外,以上对本发明实施例所提供的基于深度多模态特征融合的时尚兼容度分析方法和系统进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.基于深度多模态特征融合的时尚兼容度分析方法,其特征在于,
采集待测数据样本集;
基于所述待测数据样本集,对所述待测数据样本集进行样本特征提取网络训练,获取所述待测数据样本集内的待测数据样本特征;
基于所述待测数据样本特征进行特征融合网络训练,获取所述待测数据样本特征的模态特征表达数据;
基于所述模态特征表达数据,进行多层映射的特征表示网络训练,获取所述模态特征表达数据多层映射特征数据;
基于所述多层映射特征数据,进行融合特征兼容度计算网络训练,获取所述模态特征表达数据的多模态特征融合的时尚兼容度分析结果。
2.根据权利要求1所述的基于深度多模态特征融合的时尚兼容度分析方法,其特征在于,
所述样本特征提取网络的训练方法包括:
采用Resnet-18提取时尚单品视觉特征,将最后一层的网络输出结果作为时尚单品的特征表达;采用独热编码的方式将文本描述信息建立词汇表。
3.根据权利要求1所述的基于深度多模态特征融合的时尚兼容度分析方法,其特征在于,
所述特征融合网络的训练方法包括:
采用注意力网络对模态特征进行学习。
4.根据权利要求3所述的基于深度多模态特征融合的时尚兼容度分析方法,其特征在于,
所述模态特征包括文本模态和视觉模态。
5.根据权利要求4所述的基于深度多模态特征融合的时尚兼容度分析方法,其特征在于,
从视觉模态到文本模态的转换可以表示为:
Figure FDA0003614677160000021
其中α表示文本模态,β表示为视觉模态,
Figure FDA0003614677160000022
两个模态的特征矩阵分别表示为
Figure FDA0003614677160000023
Figure FDA0003614677160000024
Querys矩阵定义为
Figure FDA0003614677160000025
Keys矩阵定义为
Figure FDA0003614677160000026
和Values矩阵定义为
Figure FDA0003614677160000027
其中的
Figure FDA0003614677160000028
Figure FDA0003614677160000029
是权重,为可学习的超参数;
经过所述注意力机制得到的特征Yα和原始模态的特征Xβ相加得到特征Fa
Fa=Yα+Xβ
在得到文本模态α和视觉模态β的跨模态的加和融合特征后,同时还通过视觉模态自身的注意力机制网络来加强视觉特征的表达能力,其过程与跨模态注意力机制相同,即将两个视觉特征进行注意力机制的计算,并将得到的特征定义为Sβ,通过残差结构,原始特征和自注意力机制得到的视觉特征加和得到特征Fb
Fb=Sβ+Xβ
6.根据权利要求5所述的基于深度多模态特征融合的时尚兼容度分析方法,其特征在于,
所述多层映射特征表示网络的训练方法包括:
对特征Fa和特征Fb进行特征融合,首先将两个特征进行串联,将串联后的特征表示为Fconc;然后通过多层感知机得到多模态融合模块的最终的特征表示结果:
F=σ(WoFconc+bo)
其中,F为多模态融合模块最终的特征表示,Wo和bo为该网络的参数,σ为非线性的激活函数。
7.根据权利要求1所述的基于深度多模态特征融合的时尚兼容度分析方法,其特征在于,
所述融合特征兼容度计算网络的训练方法包括:在多模态向量空间之中,使用距离度量作为融合特征的兼容度衡量标准。
8.基于深度多模态特征融合的时尚兼容度分析系统,其特征在于,
包括:采集模块、样本特征提取模块、模态特征表达模块、多层映射特征模块和多模态特征融合兼容度分析模块;
所述采集模块用于采集待测数据样本集;
所述样本特征提取模块用于基于所述待测数据样本集,对所述待测数据样本集进行样本特征提取网络训练,获取所述待测数据样本集内的待测数据样本特征;
所述模态特征表达模块用于基于所述待测数据样本特征进行特征融合网络训练,获取所述待测数据样本特征的模态特征表达数据;
所述多层映射特征模块用于基于所述模态特征表达数据,进行多层映射的特征表示网络训练,获取所述模态特征表达数据多层映射特征数据;
所述多模态特征融合兼容度分析模块用于基于所述多层映射特征数据,进行融合特征兼容度计算网络训练,获取所述模态特征表达数据的多模态特征融合的时尚兼容度分析结果。
CN202210442703.4A 2022-04-25 2022-04-25 基于深度多模态特征融合的时尚兼容度分析方法和系统 Pending CN114758149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210442703.4A CN114758149A (zh) 2022-04-25 2022-04-25 基于深度多模态特征融合的时尚兼容度分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210442703.4A CN114758149A (zh) 2022-04-25 2022-04-25 基于深度多模态特征融合的时尚兼容度分析方法和系统

Publications (1)

Publication Number Publication Date
CN114758149A true CN114758149A (zh) 2022-07-15

Family

ID=82333676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210442703.4A Pending CN114758149A (zh) 2022-04-25 2022-04-25 基于深度多模态特征融合的时尚兼容度分析方法和系统

Country Status (1)

Country Link
CN (1) CN114758149A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452241A (zh) * 2023-04-17 2023-07-18 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452241A (zh) * 2023-04-17 2023-07-18 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法
CN116452241B (zh) * 2023-04-17 2023-10-20 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法

Similar Documents

Publication Publication Date Title
CN110458282B (zh) 一种融合多角度多模态的图像描述生成方法及系统
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN109754317B (zh) 融合评论的可解释性服装推荐方法、系统、设备及介质
CN107679522B (zh) 基于多流lstm的动作识别方法
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN109857844B (zh) 基于点餐对话文本的意图识别方法、装置、电子设备
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN112100387B (zh) 用于文本分类的神经网络系统的训练方法及装置
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN111079594B (zh) 一种基于双流协同网络的视频动作分类识别方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN110826338A (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN112766229B (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
CN107862322B (zh) 结合图片和文本进行图片属性分类的方法、装置及系统
CN108415972A (zh) 文本情感处理方法
CN114549850A (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN115374845A (zh) 商品信息推理方法和装置
CN110390307B (zh) 表情识别方法、表情识别模型训练方法及装置
CN114758149A (zh) 基于深度多模态特征融合的时尚兼容度分析方法和系统
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN112364236A (zh) 目标对象推荐系统、方法、装置、数据处理方法及装置
CN110321565B (zh) 基于深度学习的实时文本情感分析方法、装置及设备
CN111242114B (zh) 文字识别方法及装置
CN109886105B (zh) 基于多任务学习的价格牌识别方法、系统及存储介质
CN110851629A (zh) 一种图像检索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination