CN112017301A - 用于服装图像特定相关区域的风格迁移模型及方法 - Google Patents
用于服装图像特定相关区域的风格迁移模型及方法 Download PDFInfo
- Publication number
- CN112017301A CN112017301A CN202010721195.4A CN202010721195A CN112017301A CN 112017301 A CN112017301 A CN 112017301A CN 202010721195 A CN202010721195 A CN 202010721195A CN 112017301 A CN112017301 A CN 112017301A
- Authority
- CN
- China
- Prior art keywords
- style
- image
- content
- clothing
- garment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2024—Style variation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于服装图像特定相关区域的风格迁移模型及方法,本发明利用注意力机制和循环生成对抗网络相结合,可实现以下两个目标:(1)在复杂背景和光照变化的服装图像中,实现对特定的局部区域以及相关区域的控制,而且避免风格迁移区域边界伪影。(2)对选择的局部以及相关区域实现无需配对的服装图像风格迁移。我们提出了一个融合注意力机制和循环生成对抗网络的服装特定相关区域风格迁移模型,其中循环生成对抗网络负责服装图像局部以及相关区域无配对的风格迁移。在模型的核心,本申请设计了一种嵌入注意力机制的生成器架构,以实现对服装图像特定局部区域以及相关区域的控制,实现风格迁移边缘区域的平滑效果。
Description
技术领域
本发明涉及布料辅助加工装置,具体涉及一种用于服装图像特定相关区域的风格迁移模型及方法。
背景技术
近年来,随着深度学习的兴起,基于卷积神经网络的图像风格迁移可以使用卷积神经网络来分离图像的内容特征表示和风格特征表示,通过独立处理高层特征表示实现图像的风格迁移。后续学术界和工业界研究人员对此进行了深入的研究,发表了大量的文献。目前主要的基于深度学习的图像风格迁移方法,包括基于图像迭代和基于模型迭代两类。针对本课题研究背景采用一种典型的图像风格迁移方法:基于图像迭代的风格迁移方法,基于模型迭代的图像风格迁移方法对图像风格迁移的研究现状进行分析。
基于图像迭代的风格迁移方法
基于图像迭代的风格迁移方法是直接在白噪声图像上进行优化迭代,使得白噪声图像同时匹配内容图像的内容特征表示和风格图像的风格特征表示,最终获得风格化的合成图像。典型的方法包括三类:基于最大均值差异,以及基于马尔可夫随机场和基于深度图像类比。
最大均值差异
由Gatys最早发现通过重建VGG网络中间层的特征表示,能够从任意图像中提取内容特征表示,通过构造Gram矩阵可以提取任意图像的风格特征表示。Gram矩阵等价于最小化特定的最大均值差异。因此,将基于Gram矩阵的风格迁移方法归类为基于最大均值差异的方法。随后,研究人员在Gatys的算法基础上提出了很多改进的算法,如Li等人在Gatys方法原理上,提出使用不同的核函数来改进风格损失函数;Risser等人在Gatys方法上引入直方图损失函数解决因迭代优化期间不稳定而产生的图像纹理错乱的问题;Yi n提出基于内容感知的方法来控制图像内容和图像风格的合成,提高了图像的分辨率。
马尔可夫随机场
描述了具有同类特征信息的集合。Li等人最早提出马尔可夫随机场与深度卷积神经网络结合的方法,将图像特征表示分割成许多区域块进行匹配,对具有同类特征信息的区域块进行风格迁移,以提高图像风格迁移在空间视觉上的合理性
深度图像类比
Hertzmann最早提出图像类比的概念用于深入挖掘图像之间的映射关系,找到两个图像语义上有意义的密集对应关系。Liao等人将图像类比的概念与深度学习进行结合,提出一种通过区域块迭代优化的深度图像类比方法。这种方法将图像类比的概念应用到深层网络特征空间中,寻找语义上有意义的稠密对应关系,从而提高图像风格迁移的有效性。深度图像类比的方法在纹理迁移和颜色迁移效果上很好,但计算时间较长。He等人在Liao等人的基础上实现一对一和一对多的图像颜色迁移,该方法主要是针对图像的颜色进行处理,在满足局部约束和全局约束的情况下,通过类比的方法进行迭代优化,最终生成效果很好的图像。
总体而言,基于图像迭代的方法可以产生效果出色的风格合成图像,但是存在计算效率低下的问题,因此并非理想的图像风格迁移方案。
基于模型迭代的图像风格迁移方法
基于模型迭代的图像风格迁移方法需要使用大量的图像来训练可生成风格化图像的生成模型,很大程度上解决了图像风格迁移计算效率低下的问题,并且可以与基于图像迭代的方法进行组合。所以基于模型迭代的图像风格迁移方法是主流的图像风格迁移方法。典型的方法包括两类:基于生成模型和基于图像重构解码器。
基于生成模型方法Johnson最早提出迭代优化生成模型的图像风格迁移方法,这种方法是建立在Gatys等人算法的基础上,使用感知损失函数为某种特定的风格训练出一个生成模型。与之前训练生成模型时使用逐一像素比较的损失函数相比,感知损失函数对预训练VGG模型提取的高层抽象特征表示进行平方求差,使用残差网络作为生成模型的基本组件,为提高图像风格迁移效率提供了一个很好的启发。Ulyanov等人也采用类似的网络架构进行,并通过实验表明在生成模型训练过程中,使用实例归一化替代批量归一化可以显著提高生成图像的质量。Wang等人提出一种多模式的特征表示,以多尺度分级地执行风格化,有效解决了纹理比例适配的问题,并在高分辨率图像上产生可观的图像生成效果。Zhang等人构建一个可以训练多种风格的生成模型,实现多风格的快速风格迁移。Huang等人提出了一种自适应实例归一化的方法,解决了生成模型训练需要进行风格预定义的问题。此外,生成对抗网络在图像风格迁移方面的应用效果也很好。Li等人将马尔可夫随机场与生成对抗网络相结合,采用对抗训练的模式训练生成模型,生成的图像具有很好的真实感。随后提出无监督的生成对抗网络,如基于循环一致性的CycleGAN和基于机器翻译的对偶学习思想的DiscoGAN。这些优秀的对抗训练模型突破了训练数据需要成对的限制,在网络架构和具体实现上基本一致,成功实现了无监督的迁移学习。但是,生成对抗网络在模型训练方面相当的不稳定,判别模型的设定使得指向明确的图像风格迁移方法实现起来变得困难。此外,生成对抗网络是根据图像散度分布的迭代优化来进行训练,而不是根据图像的内容、纹理和颜色,因此,生成对抗网络进行图像风格迁移的过程难以控制。
基于图像重构解码器方法基于图像迭代存在着参数调整和效率低下的两个弊端,而快速风格迁移虽然缓解了效率低下的问题,但只能针对特定风格进行模型训练,并且仍然无法避免参数调整的问题。为了克服这些问题,Li等人提出了一种基于图像重构解码器的图像风格迁移算法,该算法不再需要针对特定风格进行模型训练,避免了参数调整的问题。该算法使用多层次的风格化策略,首先使用预训练VGG模型作为编码器,将其权重固定并用于训练解码器网络,以便将VGG特征反转为原始图像,其中解码器被设计成与编码器对称。解码器使用像素重建损失和特征损失作为重建图像的约束条件,当完成对应层的解码器训练后,在编码器和解码器之间设置对应的投影函数,通过白化和着色转换进行程式化的图像重构。Li等人进一步改善了图像重构编码器的结构,并增加了图像局部平滑的后处理,实现了图像逼真的快速风格迁移效果。
总体而言,从目前的研究进展来看,基于深度学习的图像风格迁移正快速发展,如何提高算法效率和图像质量仍然有很大的研究空间。
注意力机制研究现状与分析
以上研究现状分析只注重图像风格迁移过程,却存在复杂背景下特定区域进行风格迁移难以控制以及局部风格迁移产生边界伪影和整体风格迁移图像质量的问题。关键问题在于如何在复杂的背景图像中聚焦特定的区域,根据特定的区域得到与该区域相关度很高的其它区域。注意力机制能够从众多信息中选择出对当前任务目标更关键的信息,然后根据确定的区域利用自注意力机制捕捉数据或特征的内部相关性,得到与确定区域相关度很高的其它区域。下面针对注意力机制与自注意力机制的研究现状进行阐述。
注意力机制
Attention机制最早是在视觉图像领域提出来的,2014年googlemind团队的这篇论文《Recurrent Models of Visual Attention》他们在RNN模型上使用了attention机制来进行图像分类,从此注意力机制开始成为热点研究方向。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是第一个将attention机制应用到NLP领域中。接着attention机制被广泛应用在基于RNN/CNN等神经网络模型的各种NLP任务中。
自注意力机制
self-attention可以是一般attention的一种特殊情况或者是改进,在self-attention中,Q=K=V每个序列中的单元和该序列中所有单元进行attention计算。self-attention的特点在于无视空间距离直接计算内部部件依赖关系,能够学习一个对象的内部结构,实现也较为简单并且可以并行计算。2017年,google机器翻译团队发表的《Attention is all you need》中大量使用了自注意力(self-attention)机制来学习文本表示。从论文中看到,self-attention可以当成一个层和RNN,CNN,FNN等配合使用,并在各种NLP任务上进行探索与成功应用。
发明内容
本发明要解决的技术问题是针对以上不足,提供一种用于服装图像特定相关区域的风格迁移模型及方法。
为解决以上技术问题,本发明采用以下技术方案:
用于服装图像特定相关区域的风格迁移方法,包括以下步骤:
步骤1、将风格图像和带有标注信息的服装内容图像输入到VGG16网络中,分别提取风格图像Q1的风格特征和带有标注信息的原始服装内容图像Q2的内容特征;
步骤2、将上步得到的内容特征和风格特征作为条件输入到基于注意力机制的生成器Gattention1中,生成风格迁移后的服装图像P1;
步骤3、将风格迁移后的服装图像P1输入到判别器D1中,计算P1的内容损失和风格损失,并反馈到Gattention1中学习,直至内容损失和风格损失达到设定的阈值,并得到生成风格迁移后的服装图像Pn;
步骤4、将风格迁移后的服装图像Pn输入到VGG16网络继续提取内容特征,同时将带有标注信息的原始服装内容图像Q2输入到VGG16网络提取风格特征;
步骤5、将上一步中得到的内容特征和风格特征输入到生成器G2,得到生成的带有标注信息的服装内容图像q1。
步骤6、将生成的带有标注信息的服装内容图像q1输入到判别器D2,跟风格图像Q1和带有标注信息的原始服装内容图像Q2相比,计算服装内容图像q1内容损失和风格损失,反馈到生成器G2中学习,直至内容损失和风格损失达到设定的阈值,并得到生成原始内容图像qn。
进一步的,所述基于注意力机制的生成器Gattention1包括下采样区、中间区和上采样区,所述下采样区用于提取输入风格特征和内容特征的其它特征,所述中间区用于利用残差模块层进行图像转换,上采样区用于先利用转置卷积层还原图像低级特征,然后利用自注意力层采用注意力机制关注服装部分特定的相关区域,得到注意力机制在服装各个区域的权值分布的情况,最后根据注意力机制在服装各个区域的权值分布的情况,选择权值大的以及相关度高的区域进行风格迁移。
进一步的,每个所述残差模块层由3个卷积层组成,第1个卷积层的输出乘以δ的权重值与第2个卷积层的输出一起作为第3个卷积层的输入,如以下公式所示:
L=δL1+L2
其中,L1表示基于卷积神经网络的Gattention1网络的第1层输出,L2表示第2层输出,δ为权重参数。
进一步的,所述注意力机制为:
将通道数为C、尺寸大小为S的服装图像向量h∈RC×S作为输入;然后采用一个大小为1×1卷积核,通道数为C'=C/4的卷积网络获取特征空间hf和hg;接着,通过Decoder解码器网络的变换函数g合成整个服装区域中间语义表示,将图像构成元素求和得到最后注意力机制的输出,如以下公式所示:
其中,h1=f(x1),…,hn=f(xn),αij表示权重,它的值代表生成区域第i个区域时,模型对第j个区域的注意力程度,反映了hj对Ci的重要性,最终得到注意力权重分布Ci=(C1,C2,C3,...,Cn)∈Rc×n,xn表示输入服装区域的个数,Ci对应着不同的服装区域投入的注意力分配概率分布。
进一步的,αij的计算方法包括以下步骤:
步骤1、计算两个特征空间hf和hg的相似性得到eij;
步骤2、对eij的结果进行归一化得到αij;
进一步的,包括VGG16网络、基于注意力机制的生成器Gattention1、判别器D1、判别器D2和生成器G2,所述VGG16网络用于分别提取风格图像Q1的风格特征和带有标注信息的原始服装内容图像Q2的内容特征,并将风格特征和内容特征输入基于注意力机制的生成器Gattention1,所述基于注意力机制的生成器Gattention1用于根据内容特征和风格特征生成风格迁移后的服装图像P1,并将风格迁移后的服装图像P1输入到判别器D1中,所述判别器D1用于计算P1相比Q1和Q2的内容损失和风格损失,并反馈到Gattention1中学习,直至内容损失和风格损失达到设定的阈值,并得到生成风格迁移后的服装图像Pn,并将风格迁移后的服装图像Pn输入到VGG16网络,所述VGG16网络用于提取风格迁移后的服装图像Pn内容特征,对带有标注信息的原始服装内容图像Q2提取风格特征,并将得到的内容特征和风格特征输入到生成器G2,生成器G2用于得到生成的带有标注信息的服装内容图像q1,并将服装内容图像q1输入到判别器D2,服装内容图像q1用于计算服装内容图像q1内容损失和风格损失,反馈到生成器G2中学习,直至内容损失和风格损失达到设定的阈值,并得到生成原始内容图像qn。
本发明的有益效果为:本发明利用注意力机制和循环生成对抗网络相结合,可实现以下两个目标:(1)在复杂背景和光照变化的服装图像中,实现对特定的局部区域以及相关区域的控制,而且避免风格迁移区域边界伪影。(2)对选择的局部以及相关区域实现无需配对的服装图像风格迁移。我们提出了一个融合注意力机制和循环生成对抗网络的服装特定相关区域风格迁移模型,其中循环生成对抗网络负责服装图像局部以及相关区域无配对的风格迁移。在模型的核心,本申请设计了一种嵌入注意力机制的生成器架构,以实现对服装图像特定局部区域以及相关区域的控制,实现风格迁移边缘区域的平滑效果。
附图说明
图1为本发明的总体技术方案示意图;
图2为基于注意力机制的生成器网络模型;
图3为残差网络模块层结构;
图4为自注意力层的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明的总体目标是利用注意力机制和循环生成对抗网络相结合实现以下两个目标:(1)在复杂背景和光照变化的服装图像中,实现对特定的局部区域以及相关区域的控制,而且避免风格迁移区域边界伪影。(2)对选择的局部以及相关区域实现无需配对的服装图像风格迁移。我们提出了一个融合注意力机制和循环生成对抗网络的服装特定相关区域风格迁移模型,其中循环生成对抗网络负责服装图像局部以及相关区域无配对的风格迁移。在模型的核心,我们设计了一种嵌入注意力机制的生成器架构,以实现对服装图像特定局部区域以及相关区域的控制,实现风格迁移边缘区域的平滑效果。
融合注意力机制和循环生成对抗网络的服装特定相关区域风格迁移模型
我们提出的融合注意力机制和循环生成对抗网络的服装风格迁移模型如图1所示,该模型的具体实现步骤和具体算法实现如下:
具体实现步骤如下:
步骤1、将风格图像和带有标注信息的服装内容图像输入到VGG16网络中,分别提取风格图像Q1的风格特征和带有标注信息的原始服装内容图像Q2的内容特征;
步骤2、将上步得到的内容特征和风格特征作为条件输入到基于注意力机制的生成器Gattention1中,生成风格迁移后的服装图像P1;
步骤3、将风格迁移后的服装图像P1输入到判别器D1中,计算P1的内容损失和风格损失,并反馈到Gattention1中学习,直至内容损失和风格损失达到设定的阈值,并得到生成风格迁移后的服装图像Pn;
步骤4、将风格迁移后的服装图像Pn输入到VGG16网络继续提取内容特征,同时将带有标注信息的原始服装内容图像Q2输入到VGG16网络提取风格特征;
步骤5、将上一步中得到的内容特征和风格特征输入到生成器G2,得到生成的带有标注信息的服装内容图像q1。
步骤6、将生成的带有标注信息的服装内容图像q1输入到判别器D2,跟风格图像Q1和带有标注信息的原始服装内容图像Q2相比,计算服装内容图像q1内容损失和风格损失,反馈到生成器G2中学习,直至内容损失和风格损失达到设定的阈值,并得到生成原始内容图像qn。
实施例1注意力机制和循环生成对抗网络相结合的服装风格迁移框架算法如下:
输入:内容图像C和风格图像S
输出:局部特定的相关区域风格迁移Pn
1.for(i=1;i≤K;i++)//K是训练周期
/*将风格图像S和内容图像C输入到预训练VGG16网路中分别提取风格图像S的风格特征S'和内容图像C的内容特征C'*/
2.VGG16(S,C)
}
3.for(n=1;n≤100000;n++)//n表示迭代的次数
{/*将第2步中的风格特征和内容特征(作为条件)输入到基于注意力机制的生成器Gattention1中,生成风格
迁移后的服装图像p1。*/
Gattention1(S',C')
{/*A表示注意力掩码,S表示风格掩码,a表示原内容服装图像。
*/
Pn=AS+(1-A)a
/*将风格迁移后的服装图像输入到判别器D1中,计算其内容损失和风格损失,并反馈到Gattention1中学习,直至损失达到设定的阈值,得到生成风格迁移后的服装图像Pn。*/
if(D1(Pn))=0.03
}
return Pn
}
4.另一半网络,执行相同的1、2、3步骤。
损失函数的设计
基于注意力机制的生成器的整个框架有两个生成器模块:基于注意力机制的Gattention1和G2,两个判别器模块分别是D1和D2。总损失L的设计包括前向映射损失L1和后向映射损失L2以及循坏一致性损失L3。
前向映射损失L1如公式(1)所示:
L1(Gattention1,D1,X,Y)=Ey~pdata(y)[logD1(y)]+Ex~pdata(x)[log(1-D1(Gattention1(x)))]
(1)
源域图像通过生成器Gattention1生成风格域的图像,其中D1是开始学习了部分风格域图像风格的判别器。
后向映射损失L2如公式(2)所示:
L2(G2,D2,Y,X)=Ex~pdata(x)[logD2(x)]+Ey~pdata(y)[log(1-D2(G2(y)))] (2)
风格域图像通过生成器G2重构源域的图像,其中D2是开始学习了部分源域图像风格的判别器。
从给定数据集中选取一个样本(x,y),(x∈X,y∈Y),其中X是源域的图像,Y是风格域的图像。生成器被应用了两次,即由x→Gattention1→y,然后再将它重构回去,即y→G2→x,判别器D1和D2起到鉴别的作用,确保图像的风格迁移。因此,循坏一致性损失L3如公式(3)所示:
L3(Gattention1,G2)=Ex~pdata(x)[||G2(Gattention1(x))-x||]+Ey~pdata(y)[||Gattention1(G2(y))-y||] (3)
其中循环一致性损失的目的是为了保持风格迁移后的服装图像还可以通过原始风格生成原始服装图像。
由以上三个损失可以得到CycleGAN的总损失L如公式(4)所示:
L(Gattention1,G2,D1,D2)=L1(Gattention1,D1,X,Y)+L2(G2,D2,Y,X)+wL3(Gattention1,G2) (4)
其中,w是表示前向映射和后向映射相对重要性的权衡参数。
最后CycleGAN模型的优化目标如公式(5)所示:
基于注意力机制的生成器模型
注意力机制是在一个全局环境中将注意力集中关注某个区域而忽略其它区域,使得有限的注意力资源得到最大价值的使用。对于Imat Fashion-2019挑战赛数据集中的27个主要服装对象和19个服装部件,本文把19个服装部件作为划分服装的N个区域,设x=(x1,x2...xn)T,对每一个服装区域块xi,i∈(1,...,n)通过注意力机制分布权重,权重大的区域获得更多的关注,然后对这个权重大的区域进行风格迁移。另外自注意力机制还可以根据服装各个区域的权重分布,找到与这个权重大的区域相关度很高的区域,同样对相关度较高的区域也进行风格迁移。
我们提出的基于注意力机制的生成器网络模型如图2所示,主要组成部分有:(1)下采样区(subsampled area)4个卷积层提取输入风格特征和内容特征的其它特征;(2)中间区(middle area)8个残差模块层进行图像转换;(3)上采样区(upsampling area)2个转置卷积层还原图像低级特征,1个自注意力层关注服装部分特定的相关区域,最后由一个卷积层生成图像。
1、下采样区模块
在生成器Gattention1网络的浅层设置下采样来避免深层卷积核过多的浮点运算,减小特征图的尺寸来加速计算,并能更多地保留输入特征图的多种特性,如风格特征和内容特征之外的其它特征,有利于下一个残差网络模块进行特征提取。该下采样区由4个卷积层组成,经过4个卷积层(包含1个步长为1的卷积层和3个步长为2的卷积层)后,输入的特征图的长和宽的尺寸都缩小为原来的1/8,从而减少特征映射的范围。
5.2.2中间区模块
为了更好的保留服装原图中没有进行风格迁移区域的完整信息,本文在基于注意力机制的生成器Gattention1中增加了残差网络模块。如图3所示,每个残差网络模块层由3个卷积层组成,第1个卷积层的输出乘以δ的权重值与第2个卷积层的输出一起作为第3个卷积层的输入,如公式(6)所示:
L=δL1+L2 (6)
其中,L1表示基于卷积神经网络的Gattention1网络的第1层输出,L2表示第2层输出,δ为权重参数。
在生成器Gattention1中增加了残差网络模块,避免了因为网络层数的增加而导致梯度消失的问题,加快了模型的训练速度,残差网络内部各层之间的跳跃传参可以保留原图一部分没有进行风格迁移的完整信息,从而提高了服装风格迁移后的视觉效果。
2、上采样区模块
在生成器Gattention1的上采样区第2层引入注意力机制,如图4所示,整合各个服装区域的空间信息,建立服装图像各个区域像素之间的关联性,提高生成风格迁移后的服装图像的质量与视觉效果。
首先,将通道数为C、尺寸大小为S的服装图像向量h∈RC×S作为输入;然后采用一个大小为1×1卷积核,通道数为C'=C/4的卷积网络获取特征空间hf和hg;接着,通过Decoder解码器网络的变换函数g合成整个服装区域中间语义表示,将图像构成元素求和得到最后注意力机制的输出,如公式(7)所示:
其中,h1=f(x1),…,hn=f(xn),αij表示权重,它的值代表生成区域第i个区域时,模型对第j个区域的注意力程度,反映了hj对Ci的重要性,这一步骤得到的注意力权重分布Ci=(C1,C2,C3,...,Cn)∈Rc×n。xn表示输入服装区域的个数,Ci对应着不同的服装区域投入的注意力分配概率分布。
对于αij的值,我们采用以下算法得到,如下所示:
实施例2权重值αij求解算法
输入:特征空间hf和hg
输出:权重值αij
1.for(i=1;i<n;i++)//循环执行,特征空间数量为n
{
for(j=i+1;j≤n;j++)
{
}
}
2.定义Softmax函数,对eij采用Softmax归一化后的概率形式的权重表示得到αij
Softmax(eij)
{
Returnαij;
}
3.根据注意力机制在服装各个区域的权值分布的情况,选择权值大的以及相关度很高的区域进行风格迁移。
以上所述为本发明最佳实施方式的举例,其中未详细述及的部分均为本领域普通技术人员的公知常识。本发明的保护范围以权利要求的内容为准,任何基于本发明的技术启示而进行的等效变换,也在本发明的保护范围之内。
Claims (6)
1.用于服装图像特定相关区域的风格迁移方法,其特征在于,包括以下步骤:
步骤1、将风格图像和带有标注信息的服装内容图像输入到VGG16网络中,分别提取风格图像Q1的风格特征和带有标注信息的原始服装内容图像Q2的内容特征;
步骤2、将上步得到的内容特征和风格特征作为条件输入到基于注意力机制的生成器Gattention1中,生成风格迁移后的服装图像P1;
步骤3、将风格迁移后的服装图像P1输入到判别器D1中,计算P1的内容损失和风格损失,并反馈到Gattention1中学习,直至内容损失和风格损失达到设定的阈值,并得到生成风格迁移后的服装图像Pn;
步骤4、将风格迁移后的服装图像Pn输入到VGG16网络继续提取内容特征,同时将带有标注信息的原始服装内容图像Q2输入到VGG16网络提取风格特征;
步骤5、将上一步中得到的内容特征和风格特征输入到生成器G2,得到生成的带有标注信息的服装内容图像q1;
步骤6、将生成的带有标注信息的服装内容图像q1输入到判别器D2,跟风格图像Q1和带有标注信息的原始服装内容图像Q2相比,计算服装内容图像q1内容损失和风格损失,反馈到生成器G2中学习,直至内容损失和风格损失达到设定的阈值,并得到生成原始内容图像qn。
2.根据权利要求1所述的用于服装图像特定相关区域的风格迁移方法,其特征在于,所述基于注意力机制的生成器Gattention1包括下采样区、中间区和上采样区,所述下采样区用于提取输入风格特征和内容特征的其它特征,所述中间区用于利用残差模块层进行图像转换,上采样区用于先利用转置卷积层还原图像低级特征,然后利用自注意力层采用注意力机制关注服装部分特定的相关区域,得到注意力机制在服装各个区域的权值分布的情况,最后根据注意力机制在服装各个区域的权值分布的情况,选择权值大的以及相关度高的区域进行风格迁移。
3.根据权利要求2所述的用于服装图像特定相关区域的风格迁移方法,其特征在于,每个所述残差模块层由3个卷积层组成,第1个卷积层的输出乘以δ的权重值与第2个卷积层的输出一起作为第3个卷积层的输入,如以下公式所示:
L=δL1+L2
其中,L1表示基于卷积神经网络的Gattention1网络的第1层输出,L2表示第2层输出,δ为权重参数。
4.根据权利要求1所述的用于服装图像特定相关区域的风格迁移方法,其特征在于,所述注意力机制为:
将通道数为C、尺寸大小为S的服装图像向量h∈RC×S作为输入;然后采用一个大小为1×1卷积核,通道数为C'=C/4的卷积网络获取特征空间hf和hg;接着,通过Decoder解码器网络的变换函数g合成整个服装区域中间语义表示,将图像构成元素求和得到最后注意力机制的输出,如以下公式所示:
其中,h1=f(x1),…,hn=f(xn),αij表示权重,它的值代表生成区域第i个区域时,模型对第j个区域的注意力程度,反映了hj对Ci的重要性,最终得到注意力权重分布Ci=(C1,C2,C3,...,Cn)∈Rc×n,xn表示输入服装区域的个数,Ci对应着不同的服装区域投入的注意力分配概率分布。
6.用于服装图像特定相关区域的风格迁移模型,其特征在于,包括VGG16网络、基于注意力机制的生成器Gattention1、判别器D1、判别器D2和生成器G2,所述VGG16网络用于分别提取风格图像Q1的风格特征和带有标注信息的原始服装内容图像Q2的内容特征,并将风格特征和内容特征输入基于注意力机制的生成器Gattention1,所述基于注意力机制的生成器Gattention1用于根据内容特征和风格特征生成风格迁移后的服装图像P1,并将风格迁移后的服装图像P1输入到判别器D1中,所述判别器D1用于计算P1相比Q1和Q2的内容损失和风格损失,并反馈到Gattention1中学习,直至内容损失和风格损失达到设定的阈值,并得到生成风格迁移后的服装图像Pn,并将风格迁移后的服装图像Pn输入到VGG16网络,所述VGG16网络用于提取风格迁移后的服装图像Pn内容特征,对带有标注信息的原始服装内容图像Q2提取风格特征,并将得到的内容特征和风格特征输入到生成器G2,生成器G2用于得到生成的带有标注信息的服装内容图像q1,并将服装内容图像q1输入到判别器D2,服装内容图像q1用于计算服装内容图像q1内容损失和风格损失,反馈到生成器G2中学习,直至内容损失和风格损失达到设定的阈值,并得到生成原始内容图像qn。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010721195.4A CN112017301A (zh) | 2020-07-24 | 2020-07-24 | 用于服装图像特定相关区域的风格迁移模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010721195.4A CN112017301A (zh) | 2020-07-24 | 2020-07-24 | 用于服装图像特定相关区域的风格迁移模型及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112017301A true CN112017301A (zh) | 2020-12-01 |
Family
ID=73499398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010721195.4A Pending CN112017301A (zh) | 2020-07-24 | 2020-07-24 | 用于服装图像特定相关区域的风格迁移模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112017301A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581550A (zh) * | 2020-12-02 | 2021-03-30 | 浙江工业大学 | 一种基于生成对抗网络的非匹配图像风格转换方法 |
CN112633103A (zh) * | 2020-12-15 | 2021-04-09 | 中国人民解放军海军工程大学 | 图像处理方法、装置和电子设备 |
CN112949553A (zh) * | 2021-03-22 | 2021-06-11 | 陈懋宁 | 基于自注意力级联生成对抗网络的人脸图像修复方法 |
CN112990222A (zh) * | 2021-05-20 | 2021-06-18 | 之江实验室 | 一种基于图像边界知识迁移的引导语义分割方法 |
CN112991480A (zh) * | 2021-03-19 | 2021-06-18 | 杭州知衣科技有限公司 | 基于深度学习的服装自动设计方法、系统及计算机设备 |
CN113160033A (zh) * | 2020-12-28 | 2021-07-23 | 武汉纺织大学 | 服装风格迁移系统与方法 |
CN113239844A (zh) * | 2021-05-26 | 2021-08-10 | 哈尔滨理工大学 | 一种基于多头注意力目标检测的智能化妆镜系统 |
CN113255813A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种基于特征融合的多风格图像生成方法 |
CN113591893A (zh) * | 2021-01-26 | 2021-11-02 | 腾讯医疗健康(深圳)有限公司 | 基于人工智能的图像处理方法、装置和计算机设备 |
CN113627436A (zh) * | 2021-08-06 | 2021-11-09 | 河南大学 | 一种表面压印字符图像的无监督分割方法 |
CN115063859A (zh) * | 2022-06-23 | 2022-09-16 | 山东大学 | 基于生成对抗网络的人脸图像转换成素描的方法及系统 |
CN115618452A (zh) * | 2022-12-08 | 2023-01-17 | 湖南大学 | 具有设计师风格的服装图像智能生成系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN110458216A (zh) * | 2019-07-31 | 2019-11-15 | 中山大学 | 基于条件生成对抗网络的图像风格迁移方法 |
-
2020
- 2020-07-24 CN CN202010721195.4A patent/CN112017301A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310221A (zh) * | 2019-06-14 | 2019-10-08 | 大连理工大学 | 一种基于生成对抗网络的多域图像风格迁移方法 |
CN110458216A (zh) * | 2019-07-31 | 2019-11-15 | 中山大学 | 基于条件生成对抗网络的图像风格迁移方法 |
Non-Patent Citations (3)
Title |
---|
张惊雷;厚雅伟;: "基于改进循环生成式对抗网络的图像风格迁移", 电子与信息学报, no. 05 * |
林泓等: "融合自注意力机制和相对鉴别的无监督图像翻译", 《自动化学报》, pages 1 - 2 * |
许哲豪等: "基于生成对抗网络的图片风格迁移", 《软件导刊》, vol. 17, no. 6, pages 1 - 2 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581550A (zh) * | 2020-12-02 | 2021-03-30 | 浙江工业大学 | 一种基于生成对抗网络的非匹配图像风格转换方法 |
CN112633103A (zh) * | 2020-12-15 | 2021-04-09 | 中国人民解放军海军工程大学 | 图像处理方法、装置和电子设备 |
CN113160033A (zh) * | 2020-12-28 | 2021-07-23 | 武汉纺织大学 | 服装风格迁移系统与方法 |
CN113591893A (zh) * | 2021-01-26 | 2021-11-02 | 腾讯医疗健康(深圳)有限公司 | 基于人工智能的图像处理方法、装置和计算机设备 |
CN113591893B (zh) * | 2021-01-26 | 2024-06-28 | 腾讯医疗健康(深圳)有限公司 | 基于人工智能的图像处理方法、装置和计算机设备 |
CN112991480A (zh) * | 2021-03-19 | 2021-06-18 | 杭州知衣科技有限公司 | 基于深度学习的服装自动设计方法、系统及计算机设备 |
CN112949553A (zh) * | 2021-03-22 | 2021-06-11 | 陈懋宁 | 基于自注意力级联生成对抗网络的人脸图像修复方法 |
CN112990222A (zh) * | 2021-05-20 | 2021-06-18 | 之江实验室 | 一种基于图像边界知识迁移的引导语义分割方法 |
CN113239844A (zh) * | 2021-05-26 | 2021-08-10 | 哈尔滨理工大学 | 一种基于多头注意力目标检测的智能化妆镜系统 |
CN113255813B (zh) * | 2021-06-02 | 2022-12-02 | 北京理工大学 | 一种基于特征融合的多风格图像生成方法 |
CN113255813A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种基于特征融合的多风格图像生成方法 |
CN113627436A (zh) * | 2021-08-06 | 2021-11-09 | 河南大学 | 一种表面压印字符图像的无监督分割方法 |
CN113627436B (zh) * | 2021-08-06 | 2024-07-12 | 河南大学 | 一种表面压印字符图像的无监督分割方法 |
CN115063859A (zh) * | 2022-06-23 | 2022-09-16 | 山东大学 | 基于生成对抗网络的人脸图像转换成素描的方法及系统 |
CN115618452A (zh) * | 2022-12-08 | 2023-01-17 | 湖南大学 | 具有设计师风格的服装图像智能生成系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112017301A (zh) | 用于服装图像特定相关区域的风格迁移模型及方法 | |
Shamsolmoali et al. | Image synthesis with adversarial networks: A comprehensive survey and case studies | |
Li et al. | Stacked U-shape network with channel-wise attention for salient object detection | |
CN110287800B (zh) | 一种基于sgse-gan的遥感图像场景分类方法 | |
CN112561838B (zh) | 基于残差自注意力和生成对抗网络的图像增强方法 | |
CN108961350B (zh) | 一种基于显著度匹配的画风迁移方法 | |
Lu et al. | Low-rank 2-D neighborhood preserving projection for enhanced robust image representation | |
CN113874883A (zh) | 手部姿势估计 | |
CN110544297A (zh) | 一种单幅图像的三维模型重建方法 | |
CN113538608B (zh) | 基于生成对抗网络的可控人物图像生成方法 | |
CN114581560B (zh) | 基于注意力机制的多尺度神经网络红外图像彩色化方法 | |
Hosseini et al. | GF-CapsNet: Using gabor jet and capsule networks for facial age, gender, and expression recognition | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN113255602A (zh) | 基于多模态数据的动态手势识别方法 | |
Li et al. | 3D-VRVT: 3D voxel reconstruction from a single image with vision transformer | |
Yan et al. | Research on image generation optimization based deep learning | |
Xie et al. | Robust facial expression recognition with transformer block enhancement module | |
Abdelaziz et al. | Few-shot learning with saliency maps as additional visual information | |
CN103793720B (zh) | 一种眼睛定位方法和系统 | |
Tan et al. | Locality guided neural networks for explainable artificial intelligence | |
Min et al. | Entangled View-Epipolar Information Aggregation for Generalizable Neural Radiance Fields | |
De Souza et al. | Fundamentals and challenges of generative adversarial networks for image-based applications | |
Xu et al. | Human face cartoon image generation based on CycleGAN | |
Zhang et al. | VSA-CGAN: An Intelligent Generation Model for Deep Learning Sample Database Construction | |
CN118314161B (zh) | 基于文本语义引导的小样本医学图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |