CN114842105A - 一种一体化的条件图像重绘方法及装置 - Google Patents

一种一体化的条件图像重绘方法及装置 Download PDF

Info

Publication number
CN114842105A
CN114842105A CN202210625609.2A CN202210625609A CN114842105A CN 114842105 A CN114842105 A CN 114842105A CN 202210625609 A CN202210625609 A CN 202210625609A CN 114842105 A CN114842105 A CN 114842105A
Authority
CN
China
Prior art keywords
image
condition
loss
module
redrawing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210625609.2A
Other languages
English (en)
Inventor
施柏鑫
李思
孙冀蒙
翁书晨
常征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210625609.2A priority Critical patent/CN114842105A/zh
Publication of CN114842105A publication Critical patent/CN114842105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种一体化的条件图像重绘方法及装置,设计多模态条件融合模块以及注入模块来实现多模态条件的解耦和交互,通过建立背景条件与其他条件的交互和依赖关系来缓解阶段间独立性,生成高质量、拼接自然的重绘图像。同时,本发明通过设计垂直的跨模态相似度模块来匹配不同中间层的特征以及颜色文本不同语义层的特征,兼顾局部特征和全局特征,即粗细粒度的特征匹配,使得文本编码器能进行细粒度表征,缓解两阶段中的重绘图像与颜色文本间的不一致现象,使得重绘图像和输入颜色条件保持一致,满足用户需求。此外,本发明扩展了应用场景,构造了一个新的风景数据集,实现了人物重绘到对室外风景重绘的扩展,体现了本发明方法较高的泛化性能。

Description

一种一体化的条件图像重绘方法及装置
技术领域
本发明涉及计算视觉技术领域,尤其涉及一种一体化的条件图像重绘方法及装置。
背景技术
内容的生产与营销已经成为当今互联网产业盈利的基本方式之一,由内容生产者创作的、以文字、图像、视频等形式出现的多媒体信息吸引了大量消费者的阅读和观看,由此产生了巨大的商业价值,并促进了整个互联网行业的发展。其中,图像编辑是一项重要的工作,在插画设计、视频封面制作、游戏素材制作等方面均有广泛的需求,但编辑图像通常是复杂的,往往需要掌握专业的绘图和美术知识,且创作时间耗时、创作结果难以修改。因此,面对广泛的需求,利用深度学习的方法进行图像编辑已成为近期研究的热点。常见的图像编辑的应用有:给黑白老照片上色,修复被损坏的区域等。为了增加用户在图像编辑中的参与感,条件图像重绘任务成为一个比较热门的话题。
条件图像重绘(Conditional image repainting,CIR)是一种先进的图像编辑任务,需要模型基于用户提供的多模态输入(颜色、几何、背景等),在指定的区域内生成让用户满意的视觉内容。条件图像重绘任务中,“重绘”代表着已有图像中的部分区域被重新绘制,而“条件”则表示重新绘制的内容是由用户输入的多模态条件控制生成的,这些多模态条件输入包括:纹理条件(形态为高斯噪声)、颜色条件(形态为文本属性或自然语言)、几何条件(形态为语义分割掩码)以及背景条件(形态为RGB图像)。
经典的条件图像重绘方法采用两阶段的设计:生成阶段和拼接阶段。(1)在生成阶段中,模型利用输入的颜色、几何、纹理条件来进行重绘内容的生成。(2)在拼接阶段中,模型丢弃第一阶段生成的无意义的背景区域,并用输入的背景条件替换。然后利用拼接模型对重绘区域的色调进行调整,使拼接后的图像更加和谐,最终生成了重绘图像。
现有技术具有如下缺点:
(1)两阶段间的独立性:现有技术将图像重绘任务明确的分为两个阶段,由于拼接阶段是在生成阶段完成之后才能开始,导致拼接模型只能在得到重绘内容的生成后才能进行调整,极大的限制了拼接模型的发挥空间并且导致区域之间的色调不一致,拼接效果不自然。除此之外,由于两阶段的设计,第一阶段生成的背景区域将会被丢弃,因此导致该部分的梯度会被截断,从而导致梯度回传变得不稳定,最终在生成结果上出现很多伪影,极大影响重绘图像的生成质量。
(2)重绘图像和颜色文本之间的不一致性:预训练跨模态相似度模型用于消除不同模态之间的差距,而经典的两阶段方法中,对文本模态和图像模态分别使用全局编码器进行编码,缺乏了细节特征与局部信息的表示,因此重绘图像会不符合颜色条件的约束,导致重绘图像和输入的颜色文本不能保持一致,难以满足用户需求。
(3)现有技术都是在人物场景下应用的,即只能进行室内人物的重绘。
发明内容
本发明针对现有方法受限于两阶段模型的设计,阶段间的独立性以及模态间的差异性导致重绘结果的图像质量不高、重绘区域与背景输入的拼接效果不够自然、重绘图像与颜色输入不一致的技术问题,提出一种一体化的条件图像重绘方法及装置,在一个阶段内建立了不同模态的输入条件之间的交互和依赖关系,提升了重绘图像的生成质量以及重绘区域与背景输入的拼接效果。同时提出一个多层结构的跨模态相似度模型,在不同层次上捕捉不同粒度的特征进行匹配,提高了重绘图像与颜色输入的一致程度。
为了实现上述目的,本发明提供如下技术方案:
一种一体化的条件图像重绘方法,包括以下步骤:
S1、颜色条件xc首先被编码并且在几何条件xg的指导下进行广播,处理后的特征表示为egc,随后对处理后的特征egc进行卷积,得到隐层特征h作为生成网络FG的原始输入;生成网络FG由卷积层和FABN模块堆叠构成,FABN模块中还包含CMCFM模块进行模态融合;
S2、纹理条件z、几何条件xg和背景条件yb通过FABN模块在生成网络FG的中间注入,在FABN模块中,几何条件xg、背景条件yb和隐层特征h首先在CMCFM模块中进行融合,随后通过卷积生成两个可学习的外表参数βa和γa,同时,纹理条件z也生成两个可学习的模式参数βp和γp
S3、采用步骤S2生成的外表参数βa和γa以及模式参数βp和γp调制经过批归一化处理后的隐层特征h,经过多层修正,最后生成重绘图像。
进一步地,步骤S1采用HCMSM模型实现;HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器含有n组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出;文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元被连接起来并组成一个多层结构。
进一步地,步骤S1采用HCMSM模型实现的实现过程为:图像编码器首先将合成图像按照几何条件xg的指导分割成n个不同的类别区域,记做(y′0,y′1,...,y′n-1);随后将各部分类别区域分别注入到n组的组卷积网络(G0,G1,...,Gn)中,其中每个组卷积对应每个类别区域;通过提取m个中间层特征来挖掘不同粒度的语义信息,表示为
Figure BDA0003677214290000031
其中i∈{0,...,m-1},j∈{0,...,n-1},Q为特征维度,H为图像高度,W为图像宽度;每个编码单元对颜色条件xc进行单独编码,记为
Figure BDA0003677214290000032
其中i∈{0,...,m-1};颜色属性与图像类别区域的相关性矩阵为:
Figure BDA0003677214290000033
Nc为文本属性的数量,Ng为重绘区域中切分的部分数目;将编码后的属性映射到相应的图像类别区域中,得到
Figure BDA0003677214290000034
最终通过加法得到第(i+1)层的特征
Figure BDA0003677214290000035
Figure BDA0003677214290000036
进一步地,多粒度基于注意力的相似度损失函数为:
Figure BDA0003677214290000037
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次中的样本总数。
进一步地,步骤S2的FABN模块中,几何条件xg被卷积并且作为一种门控来混合重绘隐层特征h和背景条件yb
进一步地,步骤S2中几何条件xg、背景条件yb和隐层特征h在CMCFM模块中进行融合的过程为:CMCFM模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上。
进一步地,生成网络FG的训练过程为:
(1)采用条件-无条件联合图像块辨别器,判断条件间的一致性以及判断每个图像块的真实程度,生成损失Lg定义为:
Figure BDA0003677214290000041
其中,
Figure BDA0003677214290000042
为背景条件yb和重绘生成yr的拼接,Npat表示辨别器中图像块的个数,
Figure BDA0003677214290000043
为无条件辨别器
Figure BDA0003677214290000044
的预测,
Figure BDA0003677214290000045
为条件辨别器
Figure BDA0003677214290000046
的预测,λu为无条件损失所占权重;
(2)采用一个三层的CNN作为辨别器DC来区分重绘区域和背景区域,记做pr=DC(y),pr表示每个像素点被判断为重绘区域的概率,拼接损失Lc表示为:
Figure BDA0003677214290000047
其中,
Figure BDA0003677214290000048
为重绘区域的像素总数;
(3)采用l1损失来确保背景特征提取的意义,l1损失Lb表示为:
Figure BDA0003677214290000051
其中,
Figure BDA0003677214290000052
为背景区域的像素总数,
Figure BDA0003677214290000053
为生成图像中背景部分特征,
Figure BDA0003677214290000054
为原始图像中背景部分特征;
(4)采用特征匹配损失来计算从辨别器DFM中提取的特征对之间的l1平均距离,特征匹配损失LFM定义为:
Figure BDA0003677214290000055
感知损失使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距,感知损失Lp记做:
Figure BDA0003677214290000056
其中,TFM和TP分别代表辨别器DFM和编码器Φ的层数;Ci为图像特征的维度,Hi为图像特征的高度,Wi为图像特征的宽度,Φ(y)为生成图像经过编码器的特征,Φ(yb)为真实图像经过编码器的特征;
(5)将生成损失Lg、拼接损失Lc、11损失Lb、特征匹配损失LFM、感知损失Lp加权作为整体目标函数,如下:
Figure BDA0003677214290000057
其中,λc为拼接损失所占的权重参数,λb为11损失所占的权重参数,λFM为特征匹配损失所占的权重参数,λp为感知损失所占的权重参数,λm为多粒度基于注意力的相似度损失所占的权重参数,Lm为多粒度基于注意力的相似度损失:
Figure BDA0003677214290000058
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
另一方面,本发明还提供一种一体化的条件图像重绘装置,包括以下模块,用于实现上述的方法:
多模态条件融合模块和注入模块,用于实现多模态条件的解耦和交互;多模态条件融合模块和注入模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上;
多层结构跨模态相似度模块,用于匹配不同语义层的特征,兼顾局部特征和全局特征,使得重绘图像和输入颜色条件保持一致;多层结构跨模态相似度模块包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器是一个含有n个组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元连接起来并组成一个多层结构。
与现有技术相比,本发明的有益效果为:
不同于两阶段模型,本发明提供的一体化的条件图像重绘方法及装置,是端到端的,避免了两阶段模型的缺陷,设计多模态条件融合模块以及注入模块来实现多模态条件的解耦和交互,具体而言,通过建立背景条件与其他条件的交互和依赖关系来缓解阶段间独立性,生成高质量、拼接自然的重绘图像。同时,本发明通过设计垂直的跨模态相似度模块来匹配不同中间层的特征以及颜色文本不同语义层的特征,兼顾局部特征和全局特征,即粗细粒度的特征匹配,使得文本编码器能进行细粒度表征,缓解两阶段中的重绘图像与颜色文本间的不一致现象,使得重绘图像和输入颜色条件保持一致,满足用户需求。此外,本发明扩展了应用场景,构造了一个新的风景数据集,实现了人物重绘到对室外风景重绘的扩展,体现了本发明方法较高的泛化性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一体化的条件图像重绘方法的流程图。
图2为本发明实施例提供的图像编辑器结构示意图。
图3为本发明实施例提供的文本编辑器结构示意图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
本发明实施例提供的一体化的条件图像重绘方法,如图1所示,端到端的流程可以用以下公式表示:
yr=FG(z,xc,xg,yb)
其中,FG表示本发明设计的生成网络,输入包括:
(1)z~N(0,1)表示可以合成多样性结果的高斯噪声向量,即纹理条件;
(2)
Figure BDA0003677214290000071
表示颜色文本属性,即颜色条件,其中
Figure BDA0003677214290000072
NC表示文本属性的数量,例如hair color(头发颜色);Nv表示每个属性所包含的颜色取值个数,比如blue(蓝色);
(3)
Figure BDA0003677214290000073
表示语义分割掩码,即几何条件,其中
Figure BDA0003677214290000074
Ng,H,W分别表示重绘区域中切分的部分数目、图像高度和图像宽度;
(4)
Figure BDA0003677214290000075
表示用户提供的背景图像,即背景条件、背景特征。
生成网络FG由卷积层和FABN模块(Feature adaptive batch normalization,特征自适应批归一化模块)堆叠构成,FABN模块中还包含CMCFM模块进行模态融合。
如图1所示,流程具体包括以下步骤:
S1、颜色条件xc首先被编码并且在几何条件xg的指导下进行广播,处理后的特征表示为egc,随后对处理后的特征egc进行卷积,得到隐层特征h作为生成网络FG的原始输入;
S2、纹理条件z、几何条件xg和背景条件yb通过FABN模块在生成网络FG的中间注入,在FABN模块(Cross-modality condition fusion module,跨模态条件融合模块)中,几何条件xg、背景条件yb和隐层特征h首先在CMCFM模块中进行融合,随后通过卷积生成两个可学习的外表参数βa和γa,同时,纹理条件z也生成两个可学习的模式参数βp和γp
S3、采用步骤S2生成的外表参数βa和γa以及模式参数βp和γp调制经过批归一化处理后的隐层特征h,即通过改变尺度和偏差来不断更新修正h,经过多层修正,h包含更多局部细节特征,最后生成重绘图像。
具体地,步骤S1采用HCMSM模型(Hierarchical cross-modality similaritymodel,多层结构跨模态相似度模型)实现。
HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数。两个编码器都是采用金字塔结构设计,其中,如图2所示,图像编码器是一个含有n个组的组卷积网络(G0,G1,...,Gn),m个不同的中间层捕捉m层的特征作为输出;如图3所示,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元被连接起来并组成一个多层结构。
采用HCMSM模型实现的实现过程为:
图像编码器首先将合成图像按照几何条件xg的指导分割成n个不同的类别区域,记做(y′0,y′1,...,y′n-1);随后将各部分类别区域分别注入到n组的组卷积网络(G0,G1,...,Gn)中,其中每个组卷积对应每个类别区域;通过提取m个中间层特征来挖掘不同粒度的语义信息,表示为
Figure BDA0003677214290000081
Figure BDA0003677214290000082
其中i∈{0,...,m-1},j∈{0,...,n-1},Q为特征维度。
文本编码器引入MISC(Multi-condition Injection and Spatially-adaptiveCompositing多条件注入和空间自适应拼接)中的属性编码器,并且作为本发明文本编码单元,随后连接m个单元并且组成一个金字塔结构作为文本编码器。具体而言,给定颜色属性xc,每个编码单元对颜色条件xc进行单独编码,记为
Figure BDA0003677214290000091
其中i∈{0,...,m-1};颜色属性与图像类别区域的相关性矩阵为:
Figure BDA0003677214290000092
Nc为文本属性的数量,Ng为重绘区域中切分的部分数目;将编码后的属性映射到相应的图像类别区域中,得到
Figure BDA0003677214290000093
最终通过加法得到第(i+1)层的特征
Figure BDA0003677214290000094
给定颜色条件E和合成图像Y,将第t个样本中第i层的颜色-图像特征对记为{Ei,t,Yi,t}。因此计算了Ei,t和Yi,t匹配的后验概率,记为P(Ei,t|Yi,t)。最终多粒度基于注意力的相似度损失函数为:
Figure BDA0003677214290000095
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
步骤S2的FABN模块中,几何条件xg被卷积并且作为一种门控来混合重绘隐层特征h和背景条件yb
对于多模态条件,对他们单独设计注入模块是不现实的,因为不同模态条件之间的交互和依赖关系需要进行建模,比如:几何条件需要指导颜色条件的空间分布,以及把重绘区域和背景区域区分开。简单的将各种条件堆叠起来操作也是不合理的,因为这些条件属于不同的模态并且有不同的表现形式,例如几何条件是语义分割掩码,而颜色条件是一系列的向量。
基于以上问题,本发明步骤S2中的CMCFM和FABN进行以下设计:
具体地,几何条件xg、背景条件yb和隐层特征h在CMCFM模块中进行融合的过程为:
CMCFM模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上。
本发明采用了三种不同的辨别器对生成网络FG进行训练:(1)一个条件-无条件联合图像块辨别器,用于判断条件间的一致性以及判断每个图像块的真实程度;(2)一个三层卷积神经网络来判断重绘区域和背景区域的色调和谐程度;(3)一个多尺度辨别器通过计算特征匹配损失在不同特征层中区分真实图像和合成图像。
本发明通过以上技术方案对模块进行设计,并且对一体化模型进行端到端的训练,具体的训练过程为:
(1)采用条件-无条件联合图像块辨别器,判断条件间的一致性以及判断每个图像块的真实程度,生成损失Lg定义为:
Figure BDA0003677214290000101
其中,
Figure BDA0003677214290000102
为背景条件yb和重绘生成yr的拼接,Npat表示辨别器中图像块的个数,
Figure BDA0003677214290000103
为无条件辨别器
Figure BDA0003677214290000104
的预测,
Figure BDA0003677214290000105
为条件辨别器
Figure BDA0003677214290000106
的预测,λu为无条件判别损失所占的比重;
(2)(2)考虑到重绘内容应该和输入背景无缝拼接在一起,本发明采用一个三层的CNN(Convolutional neural network,卷积神经网络)作为辨别器DC来区分重绘区域和背景区域,记做pr=DC(y),pr表示每个像素点被判断为重绘区域的概率,拼接损失Lc表示为:
Figure BDA0003677214290000107
其中,
Figure BDA0003677214290000108
为重绘区域的像素总数;
(3)同样考虑到背景区域的作用,本发明采用l1损失(L1 Loss:MAELoss,平均绝对误差)来确保背景特征提取的意义,l1损失Lb表示为:
Figure BDA0003677214290000109
其中,
Figure BDA00036772142900001010
为背景区域的像素总数,
Figure BDA00036772142900001011
为生成图像中背景部分特征,
Figure BDA00036772142900001012
为原始图像中背景部分特征;
(4)征匹配损失和感知损失经常被用于提升图像生成质量,本发明采用特征匹配损失来计算从辨别器DFM中提取的特征对之间的l1平均距离,特征匹配损失LFM定义为:
Figure BDA0003677214290000111
感知损失(Perceptual Loss,用VGG-16网络对两张图像取特征图,计算特征图之间的差值)使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距,感知损失Lp记做:
Figure BDA0003677214290000112
其中,TFM和TP分别代表辨别器DFM和编码器Φ的层数;Ci为图像特征的维度,Hi为图像特征的高度,Wi为图像特征的宽度,Φ(y)为生成图像经过编码器的特征,Φ(yb)为真实图像经过编码器的特征;
(5)将生成损失Lg、拼接损失Lc、11损失Lb、特征匹配损失LFM、感知损失Lp加权作为整体目标函数,如下:
Figure BDA0003677214290000113
其中,λc为拼接损失所占的权重参数,λb为11损失所占的权重参数,λFM为特征匹配损失所占的权重参数,λp为感知损失所占的权重参数,λm为多粒度基于注意力的相似度损失所占的权重参数,Lm为多粒度基于注意力的相似度损失:
Figure BDA0003677214290000114
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
另一方面,本发明还提供一种一体化的条件图像重绘装置,包括以下模块,用于实现上述的方法:
多模态条件融合模块和注入模块,用于实现多模态条件的解耦和交互;多模态条件融合模块和注入模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上;
多层结构跨模态相似度模块,用于匹配不同语义层的特征,兼顾局部特征和全局特征,使得重绘图像和输入颜色条件保持一致;多层结构跨模态相似度模块包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器是一个含有n个组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元连接起来并组成一个多层结构。
与现有技术相比,本发明具有以下优点:
(1)打破图像重绘任务中已有的两阶段依赖性假设,通过提出一个全新的一体化模型来避免两阶段的阶段依赖性导致的梯度回传困难问题,同时设计模态融合和模态条件注入的模块,更好的进行模态条件解耦与交互,产生更好的条件控制效果和更高质量的重绘结果,极大减少了伪影的生成,并且取得了更自然的拼接效果。
(2)提出一个新的多层结构跨模态相似度模块,避免了已有方法中全局编码带来的局部信息的缺失,充分挖掘图像和颜色文本间的细粒度局部特征进行匹配,使得颜色文本能编码成一个较为准确的表示,缩短了文本和图像间的差距,使得重绘图像更加符合输入的颜色文本,满足用户需求。
(3)扩展了新的应用场景,构造了一个新的风景数据集,将人物重绘扩展到风景重绘上,并且在风景重绘中依然取得了优于其他方法的效果,体现了本专利方法较高的泛化性能。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种一体化的条件图像重绘方法,其特征在于,包括以下步骤:
S1、颜色条件xc首先被编码并且在几何条件xg的指导下进行广播,处理后的特征表示为egc,随后对处理后的特征egc进行卷积,得到隐层特征h作为生成网络FG的原始输入;生成网络FG由卷积层和FABN模块堆叠构成,FABN模块中还包含CMCFM模块进行模态融合;
S2、纹理条件z、几何条件xg和背景条件yb通过FABN模块在生成网络FG的中间注入,在FABN模块中,几何条件xg、背景条件yb和隐层特征h首先在CMCFM模块中进行融合,随后通过卷积生成两个可学习的外表参数βa和γa,同时,纹理条件z也生成两个可学习的模式参数βp和γp
S3、采用步骤S2生成的外表参数βa和γa以及模式参数βp和γp调制经过批归一化处理后的隐层特征h,经过多层修正,最后生成重绘图像。
2.根据权利要求1所述的一体化的条件图像重绘方法,其特征在于,步骤S1采用HCMSM模型实现;HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器含有n组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出;文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元被连接起来并组成一个多层结构。
3.根据权利要求2所述的一体化的条件图像重绘方法,其特征在于,步骤S1采用HCMSM模型实现的实现过程为:图像编码器首先将合成图像按照几何条件xg的指导分割成n个不同的类别区域,记做(y′0,y′1,...,y′0-1);随后将各部分类别区域分别注入到n组的组卷积网络(G0,G1,...,Gn)中,其中每个组卷积对应每个类别区域;通过提取m个中间层特征来挖掘不同粒度的语义信息,表示为
Figure FDA0003677214280000011
其中i∈{0,...,m-1},j∈{0,...,n-1},Q为特征维度,H为图像高度,W为图像宽度;每个编码单元对颜色条件xc进行单独编码,记为
Figure FDA0003677214280000012
其中i∈{0,...,m-1};颜色属性与图像类别区域的相关性矩阵为:
Figure FDA0003677214280000013
Nc为文本属性的数量,Ng为重绘区域中切分的部分数目;将编码后的属性映射到相应的图像类别区域中,得到
Figure FDA0003677214280000014
最终通过加法得到第(i+1)层的特征
Figure FDA0003677214280000015
Figure FDA0003677214280000021
4.根据权利要求2所述的一体化的条件图像重绘方法,其特征在于,多粒度基于注意力的相似度损失函数为:
Figure FDA0003677214280000022
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次中的样本总数。
5.根据权利要求1所述的一体化的条件图像重绘方法,其特征在于,步骤S2的FABN模块中,几何条件xg被卷积并且作为一种门控来混合重绘隐层特征h和背景条件yb
6.根据权利要求5所述的一体化的条件图像重绘方法,其特征在于,步骤S2中几何条件xg、背景条件yb和隐层特征h在CMCFM模块中进行融合的过程为:CMCFM模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上。
7.根据权利要求1所述的一体化的条件图像重绘方法,其特征在于,生成网络FG的训练过程为:
(1)采用条件-无条件联合图像块辨别器,判断条件间的一致性以及判断每个图像块的真实程度,生成损失Lg定义为:
Figure FDA0003677214280000023
其中,
Figure FDA0003677214280000024
为背景条件yb和重绘生成yr的拼接,Npat表示辨别器中图像块的个数,
Figure FDA0003677214280000025
为无条件辨别器
Figure FDA0003677214280000026
的预测,
Figure FDA0003677214280000027
为条件辨别器
Figure FDA0003677214280000028
的预测,λu为无条件判别损失所占的比重;
(2)采用一个三层的CNN作为辨别器DC来区分重绘区域和背景区域,记做pr=DC(y),pr表示每个像素点被判断为重绘区域的概率,拼接损失Lc表示为:
Figure FDA0003677214280000031
其中,
Figure FDA0003677214280000032
为重绘区域的像素总数;
(3)采用l1损失来确保背景特征提取的意义,l1损失Lb表示为:
Figure FDA0003677214280000033
其中,
Figure FDA0003677214280000034
为背景区域的像素总数,
Figure FDA0003677214280000035
为生成图像中背景部分特征,
Figure FDA0003677214280000036
为原始图像中背景部分特征;
(4)采用特征匹配损失来计算从辨别器DFM中提取的特征对之间的l1平均距离,特征匹配损失LFM定义为:
Figure FDA0003677214280000037
感知损失使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距,感知损失Lp记做:
Figure FDA0003677214280000038
其中,TFM和TP分别代表辨别器DFM和编码器Φ的层数;Ci为图像特征的维度,Hi为图像特征的高度,Wi为图像特征的宽度,Φ(y)为生成图像经过编码器的特征,Φ(yb)为真实图像经过编码器的特征;
(5)将生成损失Lg、拼接损失Lc、l1损失Lb、特征匹配损失LFM、感知损失Lp加权作为整体目标函数,如下:
Figure FDA0003677214280000039
其中,λc为拼接损失所占的权重参数,λb为l1损失所占的权重参数,λFM为特征匹配损失所占的权重参数,λp为感知损失所占的权重参数,λm为多粒度基于注意力的相似度损失所占的权重参数,Lm为多粒度基于注意力的相似度损失:
Figure FDA0003677214280000041
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,i匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
8.一种一体化的条件图像重绘装置,其特征在于,包括以下模块,用于实现权利要求1-7任一项所述的方法:
多模态条件融合模块和注入模块,用于实现多模态条件的解耦和交互;多模态条件融合模块和注入模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上;
多层结构跨模态相似度模块,用于匹配不同语义层的特征,兼顾局部特征和全局特征,使得重绘图像和输入颜色条件保持一致;多层结构跨模态相似度模块包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器是一个含有n个组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元连接起来并组成一个多层结构。
CN202210625609.2A 2022-06-02 2022-06-02 一种一体化的条件图像重绘方法及装置 Pending CN114842105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210625609.2A CN114842105A (zh) 2022-06-02 2022-06-02 一种一体化的条件图像重绘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210625609.2A CN114842105A (zh) 2022-06-02 2022-06-02 一种一体化的条件图像重绘方法及装置

Publications (1)

Publication Number Publication Date
CN114842105A true CN114842105A (zh) 2022-08-02

Family

ID=82575267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210625609.2A Pending CN114842105A (zh) 2022-06-02 2022-06-02 一种一体化的条件图像重绘方法及装置

Country Status (1)

Country Link
CN (1) CN114842105A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240284A2 (en) * 2019-05-30 2020-12-03 Mobileye Vision Technologies Ltd. Vehicle environment modeling with cameras
WO2020246861A1 (en) * 2019-06-06 2020-12-10 Samsung Electronics Co., Ltd. Method and apparatus for training neural network model for enhancing image detail
CN112598682A (zh) * 2020-12-25 2021-04-02 公安部第一研究所 一种基于任意角度的三维ct图像剖切方法及装置
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240284A2 (en) * 2019-05-30 2020-12-03 Mobileye Vision Technologies Ltd. Vehicle environment modeling with cameras
WO2020246861A1 (en) * 2019-06-06 2020-12-10 Samsung Electronics Co., Ltd. Method and apparatus for training neural network model for enhancing image detail
WO2022073452A1 (zh) * 2020-10-07 2022-04-14 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN112598682A (zh) * 2020-12-25 2021-04-02 公安部第一研究所 一种基于任意角度的三维ct图像剖切方法及装置
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIMENG SUN: "UniCoRN: A Unified Conditional Image Repainting Network", 《COMPUTER VISION AND PATTERN RECOGNITION》 *

Similar Documents

Publication Publication Date Title
Wu et al. Nüwa: Visual synthesis pre-training for neural visual world creation
CN113934890B (zh) 一种文字自动生成场景视频的方法及系统
CN111783658B (zh) 基于双生成对抗网络的两阶段表情动画生成方法
CN112040311B (zh) 视频图像补帧方法、装置、设备及可存储介质
CN114937115A (zh) 图像处理方法、人脸更换模型处理方法、装置和电子设备
CN116997933A (zh) 用于构造面部位置图的方法和系统
CN114529940A (zh) 基于姿态引导的人体图像生成方法
CN114782596A (zh) 语音驱动的人脸动画生成方法、装置、设备及存储介质
CN115712709A (zh) 基于多关系图模型的多模态对话问答生成方法
Zhao et al. Cartoon image processing: a survey
CN114693929A (zh) 一种rgb-d双模态特征融合的语义分割方法
Chung et al. Interactively transforming Chinese ink paintings into realistic images using a border enhance generative adversarial network
CN115393480A (zh) 基于动态神经纹理的说话人合成方法、装置和存储介质
CN112991484B (zh) 智能人脸编辑方法、装置、存储介质及设备
Yu et al. Stacked generative adversarial networks for image compositing
Chen et al. Multi-view Pixel2Mesh++: 3D reconstruction via Pixel2Mesh with more images
CN114842105A (zh) 一种一体化的条件图像重绘方法及装置
US20230319223A1 (en) Method and system for deep learning based face swapping with multiple encoders
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法
CN113781376B (zh) 一种基于分治融合的高清人脸属性编辑方法
CN113781324A (zh) 一种老照片修复方法
US20220036534A1 (en) Facial reconstruction network
CN114627404A (zh) 智能化视频人物替换方法、系统
CN113554549A (zh) 文本图像的生成方法、装置、计算机设备和存储介质
Gowda et al. From pixels to portraits: A comprehensive survey of talking head generation techniques and applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220802

RJ01 Rejection of invention patent application after publication