CN111861672A - 基于多模态的生成式兼容性服装搭配方案生成方法及系统 - Google Patents

基于多模态的生成式兼容性服装搭配方案生成方法及系统 Download PDF

Info

Publication number
CN111861672A
CN111861672A CN202010736858.XA CN202010736858A CN111861672A CN 111861672 A CN111861672 A CN 111861672A CN 202010736858 A CN202010736858 A CN 202010736858A CN 111861672 A CN111861672 A CN 111861672A
Authority
CN
China
Prior art keywords
garment
clothing
template
mode
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010736858.XA
Other languages
English (en)
Inventor
刘金环
杜军威
于旭
宋雪萌
马军
陈竹敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Science and Technology
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202010736858.XA priority Critical patent/CN111861672A/zh
Publication of CN111861672A publication Critical patent/CN111861672A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态的生成式兼容性服装搭配方案生成方法及系统,将上衣的视觉特征和文本特征进行多模态融合后得到上衣多模态编码;构建基于多模态增强的互补模板服装生成模型,根据上衣多模态编码得到下衣模板图像;以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型;将上述两个模型融合后得到基于多模态的生成式兼容性服装搭配模型,在已有下衣图像集中得到与待搭配上衣匹配的下衣,输出服装搭配方案,实现服装搭配的准确性。

Description

基于多模态的生成式兼容性服装搭配方案生成方法及系统
技术领域
本发明涉及服装搭配方案推荐技术领域,特别是涉及一种基于多模态的生成式兼容性服装搭配方案生成方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着深度学习技术在表示学习领域取得的显著成功,深度学习技术成为现有兼容性建模方法的主要技术途径,传统的兼容性建模方法通常利用深度神经网络的非线性映射来学习互补时尚单品的潜在兼容空间,并基于各单品在该空间的表示,直接评估单品与单品之间的兼容程度。事实上,互补单品之间的兼容规律,除了通过潜在兼容空间来探索,还可以直接生成单品的互补兼容模板,即通过互补兼容模板刻画单品之间的兼容规律;如给定上衣,在下衣图像集中,选择与上衣兼容的、匹配的下衣,完成最佳的服装搭配方案,然而,发明人发现,上述基于生成式的兼容性服装搭配建模方法仍然存在以下问题:
(1)如何基于单品的多模态数据,即图像和文本描述,利用生成对抗网络设计有效的互补兼容模板生成模型,以准确刻画单品之间的兼容规律;
(2)如何有效地设计端到端的生成式兼容性建模框架,实现多角度,即单品-模板和单品-单品全面的兼容性建模;
(3)由于每个时尚单品可能涉及多种模态,如视觉模态和文本模态,这些模态都可以传达关于单品特征的重要信息,如何有效地融合多种模态以提升兼容性建模性能。
发明内容
为了解决上述问题,本发明提出了一种基于多模态的生成式兼容性服装搭配方案生成方法及系统,通过多模态增强的互补模板服装生成模型,根据上衣多模态特征生成与上衣兼容的下衣模板,以下衣模板作为上衣与下衣搭配的辅助;通过多模态增强的兼容模板服装生成模型,从单品-单品和单品-模板角度综合考量上衣与下衣的兼容性,实现服装搭配的准确性。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于多模态的生成式兼容性服装搭配方案生成方法,包括:
根据上衣图像获取视觉特征,根据上衣文本描述获取文本特征,将视觉特征和文本特征进行多模态融合后得到上衣多模态编码;
构建基于多模态增强的互补模板服装生成模型,根据上衣多模态编码得到下衣模板图像;
以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型;
根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型,在已有下衣图像集中得到与待搭配上衣匹配的下衣,输出服装搭配方案。
第二方面,本发明提供一种基于多模态的生成式兼容性服装搭配方案生成系统,包括:
特征提取模块,用于根据上衣图像获取视觉特征,根据上衣文本描述获取文本特征,将视觉特征和文本特征进行多模态融合后得到上衣多模态编码;
模板生成模块,用于构建基于多模态增强的互补模板服装生成模型,根据上衣多模态编码得到下衣模板图像;
兼容性模块,用于以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型;
方案输出模块,用于根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型,在已有下衣图像集中得到与待搭配上衣匹配的下衣,输出服装搭配方案。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明通过多模态增强的互补模板服装生成模型对上衣和下衣的潜在兼容规律直接刻画,根据上衣多模态特征生成与上衣兼容的下衣模板,以下衣模板作为上衣与下衣搭配的辅助,捕捉互补单品之间的兼容规律,增强单品与单品之间的兼容性建模效果。
本发明通过多模态增强的兼容模板服装生成模型,从单品-单品和单品-模板角度综合考量上衣与下衣的兼容性,有助于增强时尚单品多模态数据的表示学习能力以及对复杂兼容关系的全面理解和深度建模的潜力,实现服装搭配的准确性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的一种基于多模态的生成式兼容性服装搭配方案生成方法流程图;
图2为本发明实施例1提供的基于多模态增强的互补模板服装生成模型结构示意图。
具体实施方式:
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例基于给定单品的多模态数据,生成与之互补且兼容的潜在模板,,如给定上衣,为之搭配下衣,通过该模板捕捉互补单品之间的兼容规律,并将其视为辅助关系桥梁,增强单品与单品之间的兼容关系建模,提高服装搭配效果。如图1所示,本实施例提供一种基于多模态的生成式兼容性服装搭配方案生成方法,包括:
S1:根据上衣图像获取视觉特征,根据上衣文本描述获取文本特征,将视觉特征和文本特征进行多模态融合后得到上衣多模态编码;
S2:构建基于多模态增强的互补模板服装生成模型,根据上衣多模态编码得到下衣模板图像;
S3:以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型;
S4:根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型,在已有下衣图像集中得到与待搭配上衣匹配的下衣,输出服装搭配方案。
所述步骤S1中:
S1-1:获取上衣ti、下衣bj的相关图像
Figure BDA0002605395180000061
和文本描述
Figure BDA0002605395180000062
信息,其中图像为服装的彩色图像,文本为该图像的相关文字描述和类别信息;
S1-2:在条件生成对抗网络CGAN的基础上,设计生成器
Figure BDA0002605395180000063
和判别器DB,构建基于多模态增强的互补模板服装生成模型,如图2所示,该模型将给定源域T中的上衣图像
Figure BDA0002605395180000064
和文本描述
Figure BDA0002605395180000065
转换到目标域B中的下衣模板图像
Figure BDA0002605395180000066
S1-3:具体地,该生成器
Figure BDA0002605395180000067
包含下采样、多模态融合和上采样;以给定上衣ti为例,下采样网络的主要任务是学习上衣图像
Figure BDA0002605395180000068
的视觉特征编码
Figure BDA0002605395180000069
其过程如下:
Figure BDA00026053951800000610
Figure BDA00026053951800000611
其中,WK和bk为该网络的相关参数,
Figure BDA00026053951800000612
为ReLU激活函数,K=6为该网络的层数;取HK作为上衣的视觉编码,为了促进多模态融合,将HK作为向量
Figure BDA00026053951800000613
S1-4:针对文本模态,通过预训练好的word2vector向量将时尚单品中,如上衣的文本描述中每个单词映射为300维的向量;采用TextCNN模型提取文本向量特征;
优选地,本实施例分别使用100个大小为{2,3,4,5}的卷积核提取有效文本特征;得到上衣ti文本描述
Figure BDA00026053951800000614
的文本特征编码
Figure BDA00026053951800000615
S1-5:为了实现视觉特征和文本特征的多模态融合,将视觉编码
Figure BDA00026053951800000616
和文本编码
Figure BDA00026053951800000617
串联,采用全连接网络映射融合后的编码如下:
Figure BDA0002605395180000071
其中,Wp和bp表示多模态融合网络中的相关参数,σ(.)为激活函数;通过将投影后的特征pvc∈Rd进行维度变换得到Pvc∈Rw*h*c,即为上衣最终的多模态编码,用于后续上采样层网络的下衣模板生成任务。
所述步骤S2中,在条件生成对抗网络CGAN的基础上,构建基于多模态增强的互补模板服装生成模型,设计具有像素一致性和兼容模板正则化项的互补模板服装生成网络,将给定的上衣多模态信息转换为与之兼容的下衣模板图像;具体地:
S2-1:上采样在将上衣的多模态编码Pvc转换为下衣模板
Figure BDA0002605395180000072
过程中起着关键的作用,主要包含6个反卷积层;在基于多模态增强的互补模板服装生成模型中,生成器
Figure BDA0002605395180000073
将源域T中上衣的多模态信息转化为目标域B中的下衣模板
Figure BDA0002605395180000074
所述步骤S3中,以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型,具体地:
S3-1:为了保证训练的稳定性和图像生成的质量,采用最小二乘损失,基于多模态增强的兼容模板服装生成模型的目标函数表示如下:
Figure BDA0002605395180000075
S3-2:采用像素级L1损失促使生成的下衣模板与给定的上衣相兼容,具体通过最小化下衣模板
Figure BDA0002605395180000076
和正例的下衣
Figure BDA0002605395180000077
之间的像素级一致性损失如下:
Figure BDA0002605395180000081
S3-3:对于单品-单品的兼容性建模,通过时尚单品的隐含表示从而准确地测量它们之间的兼容性;定义下采样网络的第(K-1)层的输出为上衣ti的视觉表示
Figure BDA0002605395180000082
其中,m*n*l为该视觉表示的维度;通过同样的方式得到下衣bj的视觉表示
Figure BDA0002605395180000083
将上采样网络的第一个反卷积层的输出作为生成下衣模板
Figure BDA0002605395180000084
的视觉表示
Figure BDA0002605395180000085
S3-4:为了更好地捕捉单品的显著特征,采用全局平均池化方法将上衣和下衣的视觉编码
Figure BDA0002605395180000086
转换为全局视觉特征
Figure BDA0002605395180000087
为了增强非线性的兼容性建模,通过全连接网络将全局视觉特征映射为最终的隐含视觉特征表示;以上衣为例,将
Figure BDA0002605395180000088
输入下面的网络得到:
Figure BDA0002605395180000089
其中,
Figure BDA00026053951800000810
为上衣ti最终的隐含视觉特征,Wv和hv为该网络的相关参数,σ(·)为sigmoid激活函数;
S3-5:除视觉信息外,文本信息也可以传达时尚单品的重要特征,如类别和风格等;为了有效地编码文本信息,通过和全局视觉特征同样的映射方式,得到上衣ti、下衣bj的最终隐含文本特征为
Figure BDA00026053951800000811
S3-6:基于以上视觉和文本的隐含表示,对单品-单品的兼容性进行建模如下:
Figure BDA00026053951800000812
其中,α是权衡参数,用于平衡视觉和文本模态的重要性;
S3-7:进一步考虑生成式的兼容性建模,对于给定的上衣,生成的下衣模板在高级属性上应该与待搭配的下衣相似,因而定义下衣
Figure BDA0002605395180000091
的高级视觉编码
Figure BDA0002605395180000092
与生成下衣模板
Figure BDA0002605395180000093
的高级视觉编码
Figure BDA0002605395180000094
之间的相似性为单品-模板的兼容性
Figure BDA0002605395180000095
Figure BDA0002605395180000096
S3-8:将单品-单品兼容性和单品-模板兼容性相结合,定义上衣ti与下衣bj之间的多模态模板增强后的兼容性评分mij如下:
Figure BDA0002605395180000097
其中,β是控制单品-单品兼容性和单品-模板兼容性重要性的非负超参数;
S3-9:一般情况下,可以由时尚专家搭配得到成对的正例上衣-下衣套装,然而,对于未搭配在一起的时尚单品,不能认为它们是不兼容的,它们可能是潜在的或未被发现正例搭配,为了准确的对时尚单品之间的隐含偏好进行建模,采用BPR框架,对上衣和下衣的隐含搭配偏好进行建模,如下:
LBPR=-ln(δ(mij-mik));
其中,mik表示上衣ti和下衣负例bk之间的兼容性,且可通过与mij相似的计算方式的得到;bk为随机抽取的下衣,作为负例下衣;该函数的目标是让给定的上衣在兼容性空间的位置更接近于正例的下衣,而远离负例的下衣。
所述步骤S4中,为了提高模型性能,采用端到端的方式,将基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型进行融合,提出基于多模态的生成式兼容性服装搭配模型MGCM,能够同时从单品-单品和辅助的单品-模板角度综合测量时尚单品之间的兼容性,即:
Figure BDA0002605395180000098
其中,BPR为上衣和下衣的隐含搭配偏好损失函数,
Figure BDA0002605395180000099
为生成器损失函数,
Figure BDA0002605395180000101
为判别器损失函数,Lpixel为像素级一致性损失函数;Θ为模型中的相关参数,γ、δ、μ和ν为非负的超参数来控制模型不同部分的重要性;
在本实施例中,分别通过Adam和SGD优化器来训练以上目标函数LMGCM,通过训练后的MGCM模型,在已有下衣图像集中,得到上衣在下衣模板辅助下最为搭配的下衣,输出服装搭配方案。
实施例2
本实施例提出一种基于多模态的生成式兼容性服装搭配方案生成系统,包括:
特征提取模块,用于根据上衣图像获取视觉特征,根据上衣文本描述获取文本特征,将视觉特征和文本特征进行多模态融合后得到上衣多模态编码;
模板生成模块,用于构建基于多模态增强的互补模板服装生成模型,根据上衣多模态编码得到下衣模板图像;
兼容性模块,用于以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型;
方案输出模块,用于根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型,在已有下衣图像集中得到与待搭配上衣匹配的下衣,输出服装搭配方案。
此处需要说明的是,上述模块对应于实施例1中的步骤S1至S4,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于多模态的生成式兼容性服装搭配方案生成方法,其特征在于,包括:
根据上衣图像获取视觉特征,根据上衣文本描述获取文本特征,将视觉特征和文本特征进行多模态融合后得到上衣多模态编码;
构建基于多模态增强的互补模板服装生成模型,根据上衣多模态编码得到下衣模板图像;
以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型;
根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型,在已有下衣图像集中得到与待搭配上衣匹配的下衣,输出服装搭配方案。
2.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法,其特征在于,在条件生成对抗网络CGAN的基础上,构建基于多模态增强的互补模板服装生成模型,包括生成器,所述生成器将视觉特征和文本特征串联,采用全连接网络进行映射融合和维度变换后得到上衣多模态编码,将上衣多模态编码转化为下衣模板图像。
3.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法,其特征在于,所述基于多模态增强的兼容模板服装生成模型的目标函数为:
Figure FDA0002605395170000021
其中,DB为基于多模态增强的互补模板服装生成模型的判别器;
Figure FDA0002605395170000022
为上衣图像,
Figure FDA0002605395170000023
为下衣图像,
Figure FDA0002605395170000024
为下衣模板图像;
Figure FDA0002605395170000025
为基于多模态增强的互补模板服装生成模型的生成器。
4.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法,其特征在于,采用全局平均池化方法将上衣图像和已有下衣图像的视觉特征和文本特征转换为全局视觉特征和全局文本特征,通过全连接网络将全局视觉特征映射为隐含视觉特征和隐含文本特征;根据隐含视觉特征和隐含文本特征,对上衣单品和下衣单品的兼容性建模:
Figure FDA0002605395170000026
其中,α是权衡参数;
Figure FDA0002605395170000027
是上衣的隐含文本特征,
Figure FDA0002605395170000028
是下衣的隐含文本特征,
Figure FDA0002605395170000029
为上衣的隐含视觉特征,
Figure FDA00026053951700000210
为下衣的隐含视觉特征。
5.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法,其特征在于,根据下衣模版图像与已有下衣图像集间的相似性,对下衣单品和下衣模版的兼容性建模,即,
Figure FDA00026053951700000211
其中,
Figure FDA00026053951700000212
为下衣模版图像的视觉特征,
Figure FDA00026053951700000213
为下衣的视觉特征。
6.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法,其特征在于,采用BPR框架,对上衣和下衣的隐含搭配偏好进行建模,使给定的上衣在兼容性空间的位置更接近于正例的下衣,远离负例的下衣:
LBPR=-ln(δ(mij-mik));
其中,mik表示上衣和下衣负例之间的兼容性,δ为非负的超参数。
7.如权利要求1所述的一种基于多模态的生成式兼容性服装搭配方案生成方法,其特征在于,所述基于多模态的生成式兼容性服装搭配模型为:
Figure FDA0002605395170000031
其中,Θ为模型相关参数,γ、δ、μ和ν为非负的超参数,LBPR为上衣和下衣的隐含搭配偏好损失函数,
Figure FDA0002605395170000032
为生成器损失函数,
Figure FDA0002605395170000033
为判别器损失函数,γLpixel为像素级一致性损失函数。
8.一种基于多模态的生成式兼容性服装搭配方案生成系统,其特征在于,包括:
特征提取模块,用于根据上衣图像获取视觉特征,根据上衣文本描述获取文本特征,将视觉特征和文本特征进行多模态融合后得到上衣多模态编码;
模板生成模块,用于构建基于多模态增强的互补模板服装生成模型,根据上衣多模态编码得到下衣模板图像;
兼容性模块,用于以最小化下衣模板图像与已有下衣图像集间的像素级一致性损失为目标函数,根据上衣图像和已有下衣图像集的视觉特征和文本特征映射为隐含视觉特征和隐含文本特征,构建基于多模态增强的兼容模板服装生成模型;
方案输出模块,用于根据由基于多模态增强的互补模板服装生成模型和基于多模态增强的兼容模板服装生成模型融合得到的基于多模态的生成式兼容性服装搭配模型,在已有下衣图像集中得到与待搭配上衣匹配的下衣,输出服装搭配方案。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
CN202010736858.XA 2020-07-28 2020-07-28 基于多模态的生成式兼容性服装搭配方案生成方法及系统 Withdrawn CN111861672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010736858.XA CN111861672A (zh) 2020-07-28 2020-07-28 基于多模态的生成式兼容性服装搭配方案生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010736858.XA CN111861672A (zh) 2020-07-28 2020-07-28 基于多模态的生成式兼容性服装搭配方案生成方法及系统

Publications (1)

Publication Number Publication Date
CN111861672A true CN111861672A (zh) 2020-10-30

Family

ID=72948730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010736858.XA Withdrawn CN111861672A (zh) 2020-07-28 2020-07-28 基于多模态的生成式兼容性服装搭配方案生成方法及系统

Country Status (1)

Country Link
CN (1) CN111861672A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112860928A (zh) * 2021-02-08 2021-05-28 天津大学 一种基于类别感知图神经网络的服饰检索方法
CN113034237A (zh) * 2020-12-28 2021-06-25 武汉纺织大学 服饰套装推荐系统与方法
CN113298616A (zh) * 2021-05-19 2021-08-24 浙江外国语学院 一种基于特征融合的成对服装兼容性预测方法
CN114565119A (zh) * 2021-11-25 2022-05-31 天津市测绘院有限公司 基于多模态图卷积网络的时尚兼容度预测方法
WO2023071577A1 (zh) * 2021-10-28 2023-05-04 北京有竹居网络技术有限公司 特征提取模型训练方法、图片搜索方法、装置及设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034237A (zh) * 2020-12-28 2021-06-25 武汉纺织大学 服饰套装推荐系统与方法
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112860928A (zh) * 2021-02-08 2021-05-28 天津大学 一种基于类别感知图神经网络的服饰检索方法
CN113298616A (zh) * 2021-05-19 2021-08-24 浙江外国语学院 一种基于特征融合的成对服装兼容性预测方法
WO2023071577A1 (zh) * 2021-10-28 2023-05-04 北京有竹居网络技术有限公司 特征提取模型训练方法、图片搜索方法、装置及设备
CN114565119A (zh) * 2021-11-25 2022-05-31 天津市测绘院有限公司 基于多模态图卷积网络的时尚兼容度预测方法
CN114565119B (zh) * 2021-11-25 2023-09-26 天津市测绘院有限公司 基于多模态图卷积网络的时尚兼容度预测方法

Similar Documents

Publication Publication Date Title
CN111861672A (zh) 基于多模态的生成式兼容性服装搭配方案生成方法及系统
US11200638B2 (en) Image style transform methods and apparatuses, devices and storage media
JP7464752B2 (ja) 画像処理方法、装置、機器及びコンピュータプログラム
Alotaibi Deep generative adversarial networks for image-to-image translation: A review
JP7289918B2 (ja) 物体認識方法及び装置
CN107798381B (zh) 一种基于卷积神经网络的图像识别方法
KR20200023266A (ko) 심층 신경망 및 신경망 애플리케이션을 위한 데이터 스트림에 태그 지정 및 라벨링하기 위한 온라인의 점진적 실시간 학습
CN111460928B (zh) 一种人体动作识别系统及方法
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN111199531A (zh) 基于泊松图像融合及图像风格化的交互式数据扩展方法
WO2021164751A1 (zh) 一种感知网络结构搜索方法及其装置
JP7246811B2 (ja) 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器
US11537787B2 (en) Template-based redesign of a document based on document content
US20230419646A1 (en) Feature extraction method and apparatus
JP6830742B2 (ja) 画素に基づく画像セグメンテーション用のプログラム
US20230326173A1 (en) Image processing method and apparatus, and computer-readable storage medium
CN116258145B (zh) 多模态命名实体识别方法、装置、设备以及存储介质
Li et al. Attention guided global enhancement and local refinement network for semantic segmentation
Porkodi et al. Generic image application using GANs (generative adversarial networks): A review
US20230162409A1 (en) System and method for generating images of the same style based on layout
CN115081615A (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN116486422A (zh) 数据处理的方法和相关设备
CN114529785A (zh) 模型的训练方法、视频生成方法和装置、设备、介质
Henry et al. Pix2Pix GAN for image-to-image Translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201030