CN114842105A - 一种一体化的条件图像重绘方法及装置 - Google Patents
一种一体化的条件图像重绘方法及装置 Download PDFInfo
- Publication number
- CN114842105A CN114842105A CN202210625609.2A CN202210625609A CN114842105A CN 114842105 A CN114842105 A CN 114842105A CN 202210625609 A CN202210625609 A CN 202210625609A CN 114842105 A CN114842105 A CN 114842105A
- Authority
- CN
- China
- Prior art keywords
- image
- condition
- loss
- module
- redrawing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000002347 injection Methods 0.000 claims abstract description 14
- 239000007924 injection Substances 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 235000019587 texture Nutrition 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 9
- 238000009825 accumulation Methods 0.000 claims description 6
- 235000019580 granularity Nutrition 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 239000000243 solution Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 235000019646 color tone Nutrition 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种一体化的条件图像重绘方法及装置,设计多模态条件融合模块以及注入模块来实现多模态条件的解耦和交互,通过建立背景条件与其他条件的交互和依赖关系来缓解阶段间独立性,生成高质量、拼接自然的重绘图像。同时,本发明通过设计垂直的跨模态相似度模块来匹配不同中间层的特征以及颜色文本不同语义层的特征,兼顾局部特征和全局特征,即粗细粒度的特征匹配,使得文本编码器能进行细粒度表征,缓解两阶段中的重绘图像与颜色文本间的不一致现象,使得重绘图像和输入颜色条件保持一致,满足用户需求。此外,本发明扩展了应用场景,构造了一个新的风景数据集,实现了人物重绘到对室外风景重绘的扩展,体现了本发明方法较高的泛化性能。
Description
技术领域
本发明涉及计算视觉技术领域,尤其涉及一种一体化的条件图像重绘方法及装置。
背景技术
内容的生产与营销已经成为当今互联网产业盈利的基本方式之一,由内容生产者创作的、以文字、图像、视频等形式出现的多媒体信息吸引了大量消费者的阅读和观看,由此产生了巨大的商业价值,并促进了整个互联网行业的发展。其中,图像编辑是一项重要的工作,在插画设计、视频封面制作、游戏素材制作等方面均有广泛的需求,但编辑图像通常是复杂的,往往需要掌握专业的绘图和美术知识,且创作时间耗时、创作结果难以修改。因此,面对广泛的需求,利用深度学习的方法进行图像编辑已成为近期研究的热点。常见的图像编辑的应用有:给黑白老照片上色,修复被损坏的区域等。为了增加用户在图像编辑中的参与感,条件图像重绘任务成为一个比较热门的话题。
条件图像重绘(Conditional image repainting,CIR)是一种先进的图像编辑任务,需要模型基于用户提供的多模态输入(颜色、几何、背景等),在指定的区域内生成让用户满意的视觉内容。条件图像重绘任务中,“重绘”代表着已有图像中的部分区域被重新绘制,而“条件”则表示重新绘制的内容是由用户输入的多模态条件控制生成的,这些多模态条件输入包括:纹理条件(形态为高斯噪声)、颜色条件(形态为文本属性或自然语言)、几何条件(形态为语义分割掩码)以及背景条件(形态为RGB图像)。
经典的条件图像重绘方法采用两阶段的设计:生成阶段和拼接阶段。(1)在生成阶段中,模型利用输入的颜色、几何、纹理条件来进行重绘内容的生成。(2)在拼接阶段中,模型丢弃第一阶段生成的无意义的背景区域,并用输入的背景条件替换。然后利用拼接模型对重绘区域的色调进行调整,使拼接后的图像更加和谐,最终生成了重绘图像。
现有技术具有如下缺点:
(1)两阶段间的独立性:现有技术将图像重绘任务明确的分为两个阶段,由于拼接阶段是在生成阶段完成之后才能开始,导致拼接模型只能在得到重绘内容的生成后才能进行调整,极大的限制了拼接模型的发挥空间并且导致区域之间的色调不一致,拼接效果不自然。除此之外,由于两阶段的设计,第一阶段生成的背景区域将会被丢弃,因此导致该部分的梯度会被截断,从而导致梯度回传变得不稳定,最终在生成结果上出现很多伪影,极大影响重绘图像的生成质量。
(2)重绘图像和颜色文本之间的不一致性:预训练跨模态相似度模型用于消除不同模态之间的差距,而经典的两阶段方法中,对文本模态和图像模态分别使用全局编码器进行编码,缺乏了细节特征与局部信息的表示,因此重绘图像会不符合颜色条件的约束,导致重绘图像和输入的颜色文本不能保持一致,难以满足用户需求。
(3)现有技术都是在人物场景下应用的,即只能进行室内人物的重绘。
发明内容
本发明针对现有方法受限于两阶段模型的设计,阶段间的独立性以及模态间的差异性导致重绘结果的图像质量不高、重绘区域与背景输入的拼接效果不够自然、重绘图像与颜色输入不一致的技术问题,提出一种一体化的条件图像重绘方法及装置,在一个阶段内建立了不同模态的输入条件之间的交互和依赖关系,提升了重绘图像的生成质量以及重绘区域与背景输入的拼接效果。同时提出一个多层结构的跨模态相似度模型,在不同层次上捕捉不同粒度的特征进行匹配,提高了重绘图像与颜色输入的一致程度。
为了实现上述目的,本发明提供如下技术方案:
一种一体化的条件图像重绘方法,包括以下步骤:
S1、颜色条件xc首先被编码并且在几何条件xg的指导下进行广播,处理后的特征表示为egc,随后对处理后的特征egc进行卷积,得到隐层特征h作为生成网络FG的原始输入;生成网络FG由卷积层和FABN模块堆叠构成,FABN模块中还包含CMCFM模块进行模态融合;
S2、纹理条件z、几何条件xg和背景条件yb通过FABN模块在生成网络FG的中间注入,在FABN模块中,几何条件xg、背景条件yb和隐层特征h首先在CMCFM模块中进行融合,随后通过卷积生成两个可学习的外表参数βa和γa,同时,纹理条件z也生成两个可学习的模式参数βp和γp;
S3、采用步骤S2生成的外表参数βa和γa以及模式参数βp和γp调制经过批归一化处理后的隐层特征h,经过多层修正,最后生成重绘图像。
进一步地,步骤S1采用HCMSM模型实现;HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器含有n组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出;文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元被连接起来并组成一个多层结构。
进一步地,步骤S1采用HCMSM模型实现的实现过程为:图像编码器首先将合成图像按照几何条件xg的指导分割成n个不同的类别区域,记做(y′0,y′1,...,y′n-1);随后将各部分类别区域分别注入到n组的组卷积网络(G0,G1,...,Gn)中,其中每个组卷积对应每个类别区域;通过提取m个中间层特征来挖掘不同粒度的语义信息,表示为其中i∈{0,...,m-1},j∈{0,...,n-1},Q为特征维度,H为图像高度,W为图像宽度;每个编码单元对颜色条件xc进行单独编码,记为其中i∈{0,...,m-1};颜色属性与图像类别区域的相关性矩阵为:Nc为文本属性的数量,Ng为重绘区域中切分的部分数目;将编码后的属性映射到相应的图像类别区域中,得到最终通过加法得到第(i+1)层的特征
进一步地,多粒度基于注意力的相似度损失函数为:
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次中的样本总数。
进一步地,步骤S2的FABN模块中,几何条件xg被卷积并且作为一种门控来混合重绘隐层特征h和背景条件yb。
进一步地,步骤S2中几何条件xg、背景条件yb和隐层特征h在CMCFM模块中进行融合的过程为:CMCFM模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上。
进一步地,生成网络FG的训练过程为:
(1)采用条件-无条件联合图像块辨别器,判断条件间的一致性以及判断每个图像块的真实程度,生成损失Lg定义为:
(2)采用一个三层的CNN作为辨别器DC来区分重绘区域和背景区域,记做pr=DC(y),pr表示每个像素点被判断为重绘区域的概率,拼接损失Lc表示为:
(3)采用l1损失来确保背景特征提取的意义,l1损失Lb表示为:
(4)采用特征匹配损失来计算从辨别器DFM中提取的特征对之间的l1平均距离,特征匹配损失LFM定义为:
感知损失使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距,感知损失Lp记做:
其中,TFM和TP分别代表辨别器DFM和编码器Φ的层数;Ci为图像特征的维度,Hi为图像特征的高度,Wi为图像特征的宽度,Φ(y)为生成图像经过编码器的特征,Φ(yb)为真实图像经过编码器的特征;
(5)将生成损失Lg、拼接损失Lc、11损失Lb、特征匹配损失LFM、感知损失Lp加权作为整体目标函数,如下:
其中,λc为拼接损失所占的权重参数,λb为11损失所占的权重参数,λFM为特征匹配损失所占的权重参数,λp为感知损失所占的权重参数,λm为多粒度基于注意力的相似度损失所占的权重参数,Lm为多粒度基于注意力的相似度损失:
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
另一方面,本发明还提供一种一体化的条件图像重绘装置,包括以下模块,用于实现上述的方法:
多模态条件融合模块和注入模块,用于实现多模态条件的解耦和交互;多模态条件融合模块和注入模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上;
多层结构跨模态相似度模块,用于匹配不同语义层的特征,兼顾局部特征和全局特征,使得重绘图像和输入颜色条件保持一致;多层结构跨模态相似度模块包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器是一个含有n个组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元连接起来并组成一个多层结构。
与现有技术相比,本发明的有益效果为:
不同于两阶段模型,本发明提供的一体化的条件图像重绘方法及装置,是端到端的,避免了两阶段模型的缺陷,设计多模态条件融合模块以及注入模块来实现多模态条件的解耦和交互,具体而言,通过建立背景条件与其他条件的交互和依赖关系来缓解阶段间独立性,生成高质量、拼接自然的重绘图像。同时,本发明通过设计垂直的跨模态相似度模块来匹配不同中间层的特征以及颜色文本不同语义层的特征,兼顾局部特征和全局特征,即粗细粒度的特征匹配,使得文本编码器能进行细粒度表征,缓解两阶段中的重绘图像与颜色文本间的不一致现象,使得重绘图像和输入颜色条件保持一致,满足用户需求。此外,本发明扩展了应用场景,构造了一个新的风景数据集,实现了人物重绘到对室外风景重绘的扩展,体现了本发明方法较高的泛化性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一体化的条件图像重绘方法的流程图。
图2为本发明实施例提供的图像编辑器结构示意图。
图3为本发明实施例提供的文本编辑器结构示意图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
本发明实施例提供的一体化的条件图像重绘方法,如图1所示,端到端的流程可以用以下公式表示:
yr=FG(z,xc,xg,yb)
其中,FG表示本发明设计的生成网络,输入包括:
(1)z~N(0,1)表示可以合成多样性结果的高斯噪声向量,即纹理条件;
生成网络FG由卷积层和FABN模块(Feature adaptive batch normalization,特征自适应批归一化模块)堆叠构成,FABN模块中还包含CMCFM模块进行模态融合。
如图1所示,流程具体包括以下步骤:
S1、颜色条件xc首先被编码并且在几何条件xg的指导下进行广播,处理后的特征表示为egc,随后对处理后的特征egc进行卷积,得到隐层特征h作为生成网络FG的原始输入;
S2、纹理条件z、几何条件xg和背景条件yb通过FABN模块在生成网络FG的中间注入,在FABN模块(Cross-modality condition fusion module,跨模态条件融合模块)中,几何条件xg、背景条件yb和隐层特征h首先在CMCFM模块中进行融合,随后通过卷积生成两个可学习的外表参数βa和γa,同时,纹理条件z也生成两个可学习的模式参数βp和γp;
S3、采用步骤S2生成的外表参数βa和γa以及模式参数βp和γp调制经过批归一化处理后的隐层特征h,即通过改变尺度和偏差来不断更新修正h,经过多层修正,h包含更多局部细节特征,最后生成重绘图像。
具体地,步骤S1采用HCMSM模型(Hierarchical cross-modality similaritymodel,多层结构跨模态相似度模型)实现。
HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数。两个编码器都是采用金字塔结构设计,其中,如图2所示,图像编码器是一个含有n个组的组卷积网络(G0,G1,...,Gn),m个不同的中间层捕捉m层的特征作为输出;如图3所示,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元被连接起来并组成一个多层结构。
采用HCMSM模型实现的实现过程为:
图像编码器首先将合成图像按照几何条件xg的指导分割成n个不同的类别区域,记做(y′0,y′1,...,y′n-1);随后将各部分类别区域分别注入到n组的组卷积网络(G0,G1,...,Gn)中,其中每个组卷积对应每个类别区域;通过提取m个中间层特征来挖掘不同粒度的语义信息,表示为 其中i∈{0,...,m-1},j∈{0,...,n-1},Q为特征维度。
文本编码器引入MISC(Multi-condition Injection and Spatially-adaptiveCompositing多条件注入和空间自适应拼接)中的属性编码器,并且作为本发明文本编码单元,随后连接m个单元并且组成一个金字塔结构作为文本编码器。具体而言,给定颜色属性xc,每个编码单元对颜色条件xc进行单独编码,记为其中i∈{0,...,m-1};颜色属性与图像类别区域的相关性矩阵为:Nc为文本属性的数量,Ng为重绘区域中切分的部分数目;将编码后的属性映射到相应的图像类别区域中,得到最终通过加法得到第(i+1)层的特征
给定颜色条件E和合成图像Y,将第t个样本中第i层的颜色-图像特征对记为{Ei,t,Yi,t}。因此计算了Ei,t和Yi,t匹配的后验概率,记为P(Ei,t|Yi,t)。最终多粒度基于注意力的相似度损失函数为:
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
步骤S2的FABN模块中,几何条件xg被卷积并且作为一种门控来混合重绘隐层特征h和背景条件yb。
对于多模态条件,对他们单独设计注入模块是不现实的,因为不同模态条件之间的交互和依赖关系需要进行建模,比如:几何条件需要指导颜色条件的空间分布,以及把重绘区域和背景区域区分开。简单的将各种条件堆叠起来操作也是不合理的,因为这些条件属于不同的模态并且有不同的表现形式,例如几何条件是语义分割掩码,而颜色条件是一系列的向量。
基于以上问题,本发明步骤S2中的CMCFM和FABN进行以下设计:
具体地,几何条件xg、背景条件yb和隐层特征h在CMCFM模块中进行融合的过程为:
CMCFM模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上。
本发明采用了三种不同的辨别器对生成网络FG进行训练:(1)一个条件-无条件联合图像块辨别器,用于判断条件间的一致性以及判断每个图像块的真实程度;(2)一个三层卷积神经网络来判断重绘区域和背景区域的色调和谐程度;(3)一个多尺度辨别器通过计算特征匹配损失在不同特征层中区分真实图像和合成图像。
本发明通过以上技术方案对模块进行设计,并且对一体化模型进行端到端的训练,具体的训练过程为:
(1)采用条件-无条件联合图像块辨别器,判断条件间的一致性以及判断每个图像块的真实程度,生成损失Lg定义为:
(2)(2)考虑到重绘内容应该和输入背景无缝拼接在一起,本发明采用一个三层的CNN(Convolutional neural network,卷积神经网络)作为辨别器DC来区分重绘区域和背景区域,记做pr=DC(y),pr表示每个像素点被判断为重绘区域的概率,拼接损失Lc表示为:
(3)同样考虑到背景区域的作用,本发明采用l1损失(L1 Loss:MAELoss,平均绝对误差)来确保背景特征提取的意义,l1损失Lb表示为:
(4)征匹配损失和感知损失经常被用于提升图像生成质量,本发明采用特征匹配损失来计算从辨别器DFM中提取的特征对之间的l1平均距离,特征匹配损失LFM定义为:
感知损失(Perceptual Loss,用VGG-16网络对两张图像取特征图,计算特征图之间的差值)使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距,感知损失Lp记做:
其中,TFM和TP分别代表辨别器DFM和编码器Φ的层数;Ci为图像特征的维度,Hi为图像特征的高度,Wi为图像特征的宽度,Φ(y)为生成图像经过编码器的特征,Φ(yb)为真实图像经过编码器的特征;
(5)将生成损失Lg、拼接损失Lc、11损失Lb、特征匹配损失LFM、感知损失Lp加权作为整体目标函数,如下:
其中,λc为拼接损失所占的权重参数,λb为11损失所占的权重参数,λFM为特征匹配损失所占的权重参数,λp为感知损失所占的权重参数,λm为多粒度基于注意力的相似度损失所占的权重参数,Lm为多粒度基于注意力的相似度损失:
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,t匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
另一方面,本发明还提供一种一体化的条件图像重绘装置,包括以下模块,用于实现上述的方法:
多模态条件融合模块和注入模块,用于实现多模态条件的解耦和交互;多模态条件融合模块和注入模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上;
多层结构跨模态相似度模块,用于匹配不同语义层的特征,兼顾局部特征和全局特征,使得重绘图像和输入颜色条件保持一致;多层结构跨模态相似度模块包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器是一个含有n个组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元连接起来并组成一个多层结构。
与现有技术相比,本发明具有以下优点:
(1)打破图像重绘任务中已有的两阶段依赖性假设,通过提出一个全新的一体化模型来避免两阶段的阶段依赖性导致的梯度回传困难问题,同时设计模态融合和模态条件注入的模块,更好的进行模态条件解耦与交互,产生更好的条件控制效果和更高质量的重绘结果,极大减少了伪影的生成,并且取得了更自然的拼接效果。
(2)提出一个新的多层结构跨模态相似度模块,避免了已有方法中全局编码带来的局部信息的缺失,充分挖掘图像和颜色文本间的细粒度局部特征进行匹配,使得颜色文本能编码成一个较为准确的表示,缩短了文本和图像间的差距,使得重绘图像更加符合输入的颜色文本,满足用户需求。
(3)扩展了新的应用场景,构造了一个新的风景数据集,将人物重绘扩展到风景重绘上,并且在风景重绘中依然取得了优于其他方法的效果,体现了本专利方法较高的泛化性能。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种一体化的条件图像重绘方法,其特征在于,包括以下步骤:
S1、颜色条件xc首先被编码并且在几何条件xg的指导下进行广播,处理后的特征表示为egc,随后对处理后的特征egc进行卷积,得到隐层特征h作为生成网络FG的原始输入;生成网络FG由卷积层和FABN模块堆叠构成,FABN模块中还包含CMCFM模块进行模态融合;
S2、纹理条件z、几何条件xg和背景条件yb通过FABN模块在生成网络FG的中间注入,在FABN模块中,几何条件xg、背景条件yb和隐层特征h首先在CMCFM模块中进行融合,随后通过卷积生成两个可学习的外表参数βa和γa,同时,纹理条件z也生成两个可学习的模式参数βp和γp;
S3、采用步骤S2生成的外表参数βa和γa以及模式参数βp和γp调制经过批归一化处理后的隐层特征h,经过多层修正,最后生成重绘图像。
2.根据权利要求1所述的一体化的条件图像重绘方法,其特征在于,步骤S1采用HCMSM模型实现;HCMSM模型包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器含有n组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出;文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元被连接起来并组成一个多层结构。
3.根据权利要求2所述的一体化的条件图像重绘方法,其特征在于,步骤S1采用HCMSM模型实现的实现过程为:图像编码器首先将合成图像按照几何条件xg的指导分割成n个不同的类别区域,记做(y′0,y′1,...,y′0-1);随后将各部分类别区域分别注入到n组的组卷积网络(G0,G1,...,Gn)中,其中每个组卷积对应每个类别区域;通过提取m个中间层特征来挖掘不同粒度的语义信息,表示为其中i∈{0,...,m-1},j∈{0,...,n-1},Q为特征维度,H为图像高度,W为图像宽度;每个编码单元对颜色条件xc进行单独编码,记为其中i∈{0,...,m-1};颜色属性与图像类别区域的相关性矩阵为:Nc为文本属性的数量,Ng为重绘区域中切分的部分数目;将编码后的属性映射到相应的图像类别区域中,得到最终通过加法得到第(i+1)层的特征
5.根据权利要求1所述的一体化的条件图像重绘方法,其特征在于,步骤S2的FABN模块中,几何条件xg被卷积并且作为一种门控来混合重绘隐层特征h和背景条件yb。
6.根据权利要求5所述的一体化的条件图像重绘方法,其特征在于,步骤S2中几何条件xg、背景条件yb和隐层特征h在CMCFM模块中进行融合的过程为:CMCFM模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上。
7.根据权利要求1所述的一体化的条件图像重绘方法,其特征在于,生成网络FG的训练过程为:
(1)采用条件-无条件联合图像块辨别器,判断条件间的一致性以及判断每个图像块的真实程度,生成损失Lg定义为:
(2)采用一个三层的CNN作为辨别器DC来区分重绘区域和背景区域,记做pr=DC(y),pr表示每个像素点被判断为重绘区域的概率,拼接损失Lc表示为:
(3)采用l1损失来确保背景特征提取的意义,l1损失Lb表示为:
(4)采用特征匹配损失来计算从辨别器DFM中提取的特征对之间的l1平均距离,特征匹配损失LFM定义为:
感知损失使用一个预训练好的基础网络Φ作为编码器来降低图像特征之间的差距,感知损失Lp记做:
其中,TFM和TP分别代表辨别器DFM和编码器Φ的层数;Ci为图像特征的维度,Hi为图像特征的高度,Wi为图像特征的宽度,Φ(y)为生成图像经过编码器的特征,Φ(yb)为真实图像经过编码器的特征;
(5)将生成损失Lg、拼接损失Lc、l1损失Lb、特征匹配损失LFM、感知损失Lp加权作为整体目标函数,如下:
其中,λc为拼接损失所占的权重参数,λb为l1损失所占的权重参数,λFM为特征匹配损失所占的权重参数,λp为感知损失所占的权重参数,λm为多粒度基于注意力的相似度损失所占的权重参数,Lm为多粒度基于注意力的相似度损失:
其中,Ei,t为第t个样本中第i层的颜色特征,Yi,t为第t个样本中第i层的图像特征,P(Ei,t|Yi,t)为Ei,t和Yi,i匹配的后验概率,m为文本编码单元个数,T为一个批次的样本个数。
8.一种一体化的条件图像重绘装置,其特征在于,包括以下模块,用于实现权利要求1-7任一项所述的方法:
多模态条件融合模块和注入模块,用于实现多模态条件的解耦和交互;多模态条件融合模块和注入模块将输入的背景条件yb首先映射到一个高维特征空间,然后以几何条件xg作为门控在高维特征空间上混合重绘隐层特征和背景特征;当条件融合成一个空间自适应的特征后,几何条件xg、背景条件yb和隐层特征h被注入FABN模块卷积层生成两个外表参数βa和γa,同时通过纹理条件z生成两个模式参数βp和γp;通过分别的加和操作,空间自适应参数相乘并且加在归一化后的特征上;
多层结构跨模态相似度模块,用于匹配不同语义层的特征,兼顾局部特征和全局特征,使得重绘图像和输入颜色条件保持一致;多层结构跨模态相似度模块包括两个编码器以及一个基于多粒度注意力的相似度损失函数,图像编码器是一个含有n个组的组卷积网络,m个不同的中间层捕捉m层的特征作为输出,文本编码器由m个编码器单元组成,并且用不同的语义层表示文本属性,通过元素级的累加,不同的单元连接起来并组成一个多层结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210625609.2A CN114842105A (zh) | 2022-06-02 | 2022-06-02 | 一种一体化的条件图像重绘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210625609.2A CN114842105A (zh) | 2022-06-02 | 2022-06-02 | 一种一体化的条件图像重绘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842105A true CN114842105A (zh) | 2022-08-02 |
Family
ID=82575267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210625609.2A Pending CN114842105A (zh) | 2022-06-02 | 2022-06-02 | 一种一体化的条件图像重绘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842105A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020240284A2 (en) * | 2019-05-30 | 2020-12-03 | Mobileye Vision Technologies Ltd. | Vehicle environment modeling with cameras |
WO2020246861A1 (en) * | 2019-06-06 | 2020-12-10 | Samsung Electronics Co., Ltd. | Method and apparatus for training neural network model for enhancing image detail |
CN112598682A (zh) * | 2020-12-25 | 2021-04-02 | 公安部第一研究所 | 一种基于任意角度的三维ct图像剖切方法及装置 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN113487629A (zh) * | 2021-07-07 | 2021-10-08 | 电子科技大学 | 一种基于结构化场景和文本描述的图像属性编辑方法 |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
-
2022
- 2022-06-02 CN CN202210625609.2A patent/CN114842105A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020240284A2 (en) * | 2019-05-30 | 2020-12-03 | Mobileye Vision Technologies Ltd. | Vehicle environment modeling with cameras |
WO2020246861A1 (en) * | 2019-06-06 | 2020-12-10 | Samsung Electronics Co., Ltd. | Method and apparatus for training neural network model for enhancing image detail |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN112598682A (zh) * | 2020-12-25 | 2021-04-02 | 公安部第一研究所 | 一种基于任意角度的三维ct图像剖切方法及装置 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN113487629A (zh) * | 2021-07-07 | 2021-10-08 | 电子科技大学 | 一种基于结构化场景和文本描述的图像属性编辑方法 |
Non-Patent Citations (1)
Title |
---|
JIMENG SUN: "UniCoRN: A Unified Conditional Image Repainting Network", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Nüwa: Visual synthesis pre-training for neural visual world creation | |
CN113934890B (zh) | 一种文字自动生成场景视频的方法及系统 | |
CN111783658B (zh) | 基于双生成对抗网络的两阶段表情动画生成方法 | |
CN112040311B (zh) | 视频图像补帧方法、装置、设备及可存储介质 | |
CN114937115A (zh) | 图像处理方法、人脸更换模型处理方法、装置和电子设备 | |
CN116997933A (zh) | 用于构造面部位置图的方法和系统 | |
CN114529940A (zh) | 基于姿态引导的人体图像生成方法 | |
CN114782596A (zh) | 语音驱动的人脸动画生成方法、装置、设备及存储介质 | |
CN115712709A (zh) | 基于多关系图模型的多模态对话问答生成方法 | |
Zhao et al. | Cartoon image processing: a survey | |
CN114693929A (zh) | 一种rgb-d双模态特征融合的语义分割方法 | |
Chung et al. | Interactively transforming Chinese ink paintings into realistic images using a border enhance generative adversarial network | |
CN115393480A (zh) | 基于动态神经纹理的说话人合成方法、装置和存储介质 | |
CN112991484B (zh) | 智能人脸编辑方法、装置、存储介质及设备 | |
Yu et al. | Stacked generative adversarial networks for image compositing | |
Chen et al. | Multi-view Pixel2Mesh++: 3D reconstruction via Pixel2Mesh with more images | |
CN114842105A (zh) | 一种一体化的条件图像重绘方法及装置 | |
US20230319223A1 (en) | Method and system for deep learning based face swapping with multiple encoders | |
CN115578298A (zh) | 一种基于内容感知的深度肖像视频合成方法 | |
CN113781376B (zh) | 一种基于分治融合的高清人脸属性编辑方法 | |
CN113781324A (zh) | 一种老照片修复方法 | |
US20220036534A1 (en) | Facial reconstruction network | |
CN114627404A (zh) | 智能化视频人物替换方法、系统 | |
CN113554549A (zh) | 文本图像的生成方法、装置、计算机设备和存储介质 | |
Gowda et al. | From pixels to portraits: A comprehensive survey of talking head generation techniques and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220802 |
|
RJ01 | Rejection of invention patent application after publication |