CN115375601A - 一种基于注意力机制的解耦表达国画生成方法 - Google Patents

一种基于注意力机制的解耦表达国画生成方法 Download PDF

Info

Publication number
CN115375601A
CN115375601A CN202211307882.7A CN202211307882A CN115375601A CN 115375601 A CN115375601 A CN 115375601A CN 202211307882 A CN202211307882 A CN 202211307882A CN 115375601 A CN115375601 A CN 115375601A
Authority
CN
China
Prior art keywords
image
domain
attention
content
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211307882.7A
Other languages
English (en)
Other versions
CN115375601B (zh
Inventor
陈子涵
李思颖
张轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202211307882.7A priority Critical patent/CN115375601B/zh
Publication of CN115375601A publication Critical patent/CN115375601A/zh
Application granted granted Critical
Publication of CN115375601B publication Critical patent/CN115375601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于注意力机制的解耦表达国画生成方法,属于计算机视觉技术领域,可以将图片映射到内容空间和属性空间进行重组,并通过内容判别器和交叉循环一致理论来保证转换过程的一致性。同时,本方法采用MS‑SSIM损失函数和Charbonnier损失函数提升模型的质量。本发明通过注意力机制和潜空间的解耦表示来实现,两者的结合能够生成高质量的中国传统绘画,通过Charbonnier损失函数以保证图像重建,同时利用交叉循环一致性约束来保证合成图像的质量,相较于现有方法,本发明在模型训练中能够将国画的风格特征与高斯分布进行对齐,因此本发明可以直接将随机高斯噪声作为特征向量,使合成的国画更具艺术性和多样性。

Description

一种基于注意力机制的解耦表达国画生成方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于注意力机制的解耦表达国画生成方法。
背景技术
得益于其优秀的观赏性和艺术性,中国传统绘画越来越受到广泛的关注和研究,中国传统绘画的风格和种类繁多,包括工笔、白描和写意画等等,出于对这些具有丰富艺术内涵的中国传统画作的艺术追求,或者研究其艺术特征以供机器建模,希望能够通过计算机自动生成中国传统绘画,然而,这些绘画各自有独特的风格,并且绘画中的中国风特征和复杂结构往往难以捕捉。
幸运的是,中国传统插画生成属于已经被广泛研究的图像到图像翻译工作,而且已有了许多杰出的研究成果。图像到图像翻译任务的本质都是让模型学习从源数据集到目标数据集的映射,使其能够将原数据集的样本转化为和目标数据集相似的样本。早期与图像翻译相关的工作主要以风格迁移为主。人们利用卷积神经网络强大的特征提取能力,发明的神经网络迁移方法能够强制将艺术绘画的颜色特征和艺术细节进入拍摄的真实照片中。后来,变分自动编码器被提出,为端到端的艺术图像生成任务提供了新的思路。
随着生成式对抗网络的提出,利用生成器和判别器对抗学习的理论,研究人员通过改进生成式对抗网络的模型结构和损失函数,得到了许多高质量的图像生成成果。从那开始,已经涌现了不少基于生成式对抗网络的中国传统绘画生成的研究。但是这些研究还存在生成的图片质量不高,在艺术细节的处理上较为生硬等问题。而且,关于中国传统绘画且规范的数据集非常少,大多不够规范和完整。
需要说明的是,在上述背景技术部分公开的信息只用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于克服现有技术的缺点,提供了一种基于注意力机制的解耦表达国画生成方法,解决了现有基于生成式对抗网络的中国传统绘画生成研究存在的不足。
本发明的目的通过以下技术方案来实现:一种基于注意力机制的解耦表达国画生成方法,其特征在于:所述国画生成方法包括:
步骤一、将白描画图像域设为X,工笔画图像域设为Y,并将样本xy分别输入注意力感知网络中得到x f 的内容编码
Figure 603817DEST_PATH_IMAGE001
和属性编码
Figure 583274DEST_PATH_IMAGE002
,以及得到y f 的内容编码
Figure 192373DEST_PATH_IMAGE003
和属性编码
Figure 322003DEST_PATH_IMAGE004
步骤二、将内容编码器和属性编码器处理得到的隐向量进行交换并融合,得到X域和Y域的图像,并融合背景图得到最终图像x y
步骤三、将内容编码器和属性编码器处理得到的隐向量直接融合得到X域和Y域的重建图像
Figure 464271DEST_PATH_IMAGE005
Figure 755575DEST_PATH_IMAGE006
,将重建图像
Figure 943980DEST_PATH_IMAGE005
Figure 346142DEST_PATH_IMAGE006
与样本xy的比较结果作为训练神经网络参数时的优化方向,以实现神经网络参数更新;
步骤四、通过判别器对生成的图像x y 进行判断以及内容编码进行判断,并对构建的基于注意力机制的解耦表达生成对抗模型进行训练;
步骤五、将步骤一中的样本xy替换为最终图像x y 分别输入注意力感知网络中,将内容编码器和属性编码器处理得到的隐向量进行交换并融合,得到交叉循环一致重建图像
Figure 841452DEST_PATH_IMAGE007
Figure 428291DEST_PATH_IMAGE008
,将交叉循环一致重建图像
Figure 385883DEST_PATH_IMAGE007
Figure 716370DEST_PATH_IMAGE008
与样本xy的比较结果作为训练神经网络参数时的优化方向;
步骤六、在训练满足约束条件后通过训练好的模型完成白描画、工笔画和水墨画不同风格中国传统绘画图像之间的转化。
所述将样本xy分别输入注意力感知网络中得到x f 的内容编码
Figure 567652DEST_PATH_IMAGE009
和属性编码
Figure 466338DEST_PATH_IMAGE010
,以及到y f 的内容编码
Figure 537324DEST_PATH_IMAGE011
和属性编码
Figure 609185DEST_PATH_IMAGE012
包括:
分别将样本xy输入注意力感知网络中得到注意力图x a y a ,注意力图x a y a 分别表示对样本xy核心区域的提取;
将注意力图x a 和样本x、注意力图y a 和样本y融合后得到x的前景被强化后的图x f y的前景被强化后的图y f
把图x f 馈送入图像域X的属性编码器
Figure 580552DEST_PATH_IMAGE013
和内容编码器
Figure 384560DEST_PATH_IMAGE014
,得到x f 的属性编码
Figure 441378DEST_PATH_IMAGE010
和内容编码
Figure 618062DEST_PATH_IMAGE009
,把图y f 馈送入图像域Y的属性编码器
Figure 319302DEST_PATH_IMAGE015
和内容编码器
Figure 684424DEST_PATH_IMAGE016
,得到y f 的内容编码
Figure 962959DEST_PATH_IMAGE011
和属性编码
Figure 314306DEST_PATH_IMAGE012
所述得到X域和Y域的图像,并融合背景图得到最终图像包括:将
Figure 994686DEST_PATH_IMAGE010
Figure 235437DEST_PATH_IMAGE011
融合馈送到X域的生成器G X 以生成X域的前景图像
Figure 1267DEST_PATH_IMAGE017
,将
Figure 890726DEST_PATH_IMAGE012
Figure 691192DEST_PATH_IMAGE009
也可以通过Y域的生成器G Y 生成Y域的前景图像
Figure 398116DEST_PATH_IMAGE018
,并通过注意力模块将背景图和前景图进行融合得到最终图像x y
所述通过判别器对生成的图像x y 进行判断以及内容编码进行判断包括:通过域判别器D X D Y 判断生成的最终图像x y 是否属于图像域X和图像域Y,通过内容判别器D C 将接收的
Figure 526609DEST_PATH_IMAGE009
Figure 577349DEST_PATH_IMAGE011
两个内容编码以判断其是否属于同一分布。
所述基于注意力机制的解耦表达生成对抗模型包括由注意力模块、四个编码器、两个生成器和三个判别器;所述注意力模块由两个注意力网络组成,分别负责对图像域X和图像域Y的注意力图翻译;所述编码器用于得到图像域X和图像域Y的内容编码和属性编码;所述生成器用于对送入编码进行融合得到相应的图像;所述判别器用于对生成的图像x y 进行判断以及内容编码进行判断。
本发明具有以下优点:一种基于注意力机制的解耦表达国画生成方法,通过注意力机制和潜空间的解耦表示来实现,两者的结合能够生成高质量的中国传统绘画,通过Charbonnier损失函数以保证图像重建,同时利用交叉循环一致性约束来保证合成图像的质量,相较于现有方法本发明在模型训练中能够将国画的风格特征与高斯分布进行对齐,因此本发明可以直接将随机高斯噪声作为特征向量,使合成的国画更具艺术性和多样性,将合成图像的分辨率从256×256提高到了280×280。
附图说明
图1 为本发明的神经网络模型结构图;
图2 为神经网络模型中注意力模块的示意图;
图3 为神经网络模型中背景合成的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。
如图1-图3所示,本发明具体涉及一种基于注意力机制的解耦表达国画生成方法,首先,本方法整理收集了白描画、工笔画、水墨画样本各1000余幅,可以将图片映射到内容空间和属性空间进行重组,并通过内容判别器和交叉循环一致理论来保证转换过程的一致性。同时,采用MS-SSIM损失函数和Charbonnier损失函数提升模型的质量,使之生成的图像分辨率较传统方法的256×256提升至280×280,达到了生成高质量、富有艺术性的中国传统绘画的目的,同时也解决了其他艺术图像生成方法在生成中国国画任务上可能存在的色彩混乱,细节模糊等问题;具体包括的内容如下:
S1:以白描画到工笔画的转化为例,将白描画图像域设为X,工笔画图像域设为Y,以图像域X的到图像域Y的转化为例,首先本方法将样本x输入到注意力感知网络,得到注意力图x a 。注意力图x a 是对样本x核心区域的一个提取,结合注意力图x a ,神经网络能更加关注到图中的核心元素(花、鸟等),而更少地关注背景信息。
S2:接着,本方法将x a x融合后得到x的前景被强化后的图x f ,再把x f 同时馈送入图像域X的属性编码器
Figure 232321DEST_PATH_IMAGE013
和内容编码器
Figure 719934DEST_PATH_IMAGE014
,分别得到x f 的内容编码
Figure 725936DEST_PATH_IMAGE009
和属性编码
Figure 550673DEST_PATH_IMAGE010
。其中,属性编码器
Figure 561616DEST_PATH_IMAGE013
可以将图像的风格提取,并映射为向量,也叫属性编码。而内容编码器可以将图像的内容提取(如图像中存在的花、鸟元素),并将其映射为向量,也叫内容编码;其中,x a x融合方式如下公式所示,其中,符号⊙表示x a x进行逐个矩阵元素相乘的乘法:
Figure 220131DEST_PATH_IMAGE019
S3:同时,对于图像域Y的样本y也做类似的处理,用类似的属性编码器和内容编码器
Figure 447850DEST_PATH_IMAGE013
Figure 341856DEST_PATH_IMAGE014
得到y f 的内容编码
Figure 112366DEST_PATH_IMAGE011
和属性编码
Figure 800837DEST_PATH_IMAGE012
。由于现已将一幅图片分别映射到了内容空间和属性空间,可以用这两个编码(内容编码和属性编码)表达一张图片。
S4:把上述两个编码器处理得到的隐向量交换并融合。将
Figure 274107DEST_PATH_IMAGE010
Figure 847171DEST_PATH_IMAGE011
融合馈送到X域的生成器G X 以生成X域的图像。类似的,
Figure 331242DEST_PATH_IMAGE012
Figure 925034DEST_PATH_IMAGE009
也可以通过Y域的生成器G Y 生成Y域的图像。本发明用
Figure 861766DEST_PATH_IMAGE020
Figure 864619DEST_PATH_IMAGE021
来表示生成的仅具有前景元素的图像,即
Figure 78563DEST_PATH_IMAGE017
Figure 374415DEST_PATH_IMAGE018
S5:合成背景。由于引入了注意力机制,步骤S4中生成的图像只是前景图,还需要通过注意力模块融合背景图后得到最终图像。融合方式如下公式所示:
Figure 798443DEST_PATH_IMAGE022
Figure 244468DEST_PATH_IMAGE023
S6:为了保证训练的稳定性,将S4步骤中的隐向量直接融合以生成重建图像。以样本x为例,重建图像
Figure 437552DEST_PATH_IMAGE024
,经过类似步骤S5的背景融合后得到
Figure 45251DEST_PATH_IMAGE005
。而本方法中,重建图像应该和原始样本一致,即
Figure 455110DEST_PATH_IMAGE025
。对Y域的样本同理。具体约束方法,即重建损失L rec ,本发明采用Charbonnier损失函数,如下公式所示,其中,hwc分别表示图像的高、宽、以及通道数,
Figure 32722DEST_PATH_IMAGE026
为常数,一般取10-3
Figure 486837DEST_PATH_IMAGE027
S7:域判别器D X D Y 则分别用于判断生成的图像是否属于图像域X和图像域Y。判别器D X D Y 会对生成的图片是否属于图像域X和图像域Y作出概率评分(分数),这个评分(分数)将分别指导对应的生成器G X G Y 的神经网络参数朝着“能够生成更加真实生动,且属于对应图像域的图片”的方向优化。
S8:内容判别器D C 将接收
Figure 717967DEST_PATH_IMAGE009
Figure 991954DEST_PATH_IMAGE011
两个编码以判断其是否属于同一分布,本方法认为中国国画的风格虽有差异,但是内容应该是能够编码到同一个潜在空间的。也就是说,无论是从白描画中提取的内容编码,还是工笔画中提取的内容编码,其应该属于同一个分布,模型将不断最小化这一项。为了将两个图片域图片的内容编码到同一个空间,内容判别器D C 将对内容编码
Figure 140301DEST_PATH_IMAGE009
Figure 307977DEST_PATH_IMAGE011
的分布距离给出一个评分,这个评分将指导两个内容编码器的神经网络参数朝着“能够提取出共同分布的内容编码”的方向优化。
S9:为了保证网络能够X域图像和Y域图像能够互相映射,引入交叉循环一致约束来保证这个过程。在步骤S3到S5中,图像已经被编码到共同的内容空间和独特的属性空间,并且彼此交换属性空间后再次解码得到新的图像x y 。在步骤S8中,将x y 将作为输入,经过与S3步骤提取属性空间和内容空间的隐向量。
S10:将步骤S8中提取的隐向量,以S4步骤和S5步骤交换并输入到生成器中并合成背景图,得到分别属于X域和Y域的图像
Figure 991899DEST_PATH_IMAGE007
Figure 877815DEST_PATH_IMAGE008
Figure 62809DEST_PATH_IMAGE007
Figure 225937DEST_PATH_IMAGE008
是交叉循环一致重建图像,其本质是将x y 将作为输入,重新映射回去,形成交叉循环映射。
S11:根据交叉循环一致理论,步骤S10中的交叉循环一致重建图像
Figure 709789DEST_PATH_IMAGE007
Figure 551843DEST_PATH_IMAGE008
应该和图像x和图像y一致,即
Figure 540528DEST_PATH_IMAGE028
Figure 292583DEST_PATH_IMAGE029
。具体约束方法,即交叉循环一致重建损失L cc ,如下公式所示,其中,F ms-ssim 表示计算两张图片的多尺度结构相似性指数,
Figure 708521DEST_PATH_IMAGE030
表示计算中括号项中的数学期望:
Figure 70494DEST_PATH_IMAGE031
S12:训练完成后,使用本方法的神经网络模型,即可完成白描画、工笔画、水墨画不同风格中国国画图像之间的转化。
进一步地,基于注意力机制的解耦表达生成对抗模型由注意力模块、4个编码器、2生成器和3个判别器组成。
其中,注意力模块由两个注意力网络组成,分别负责图像域X和图像域Y的注意力图翻译。网络整体是类似于编码器和解码器的结构,中间由卷积块和残差块组成。注意力模块输出的注意力图的大小等同于原始样本的大小,并且所有的值都被归一化到[0,1]。引入注意力网络能够让模型更加关注本方法需要的前景元素(例如花、鸟等)而更少关注背景元素。
3个判别器和4个编码器(
Figure 472657DEST_PATH_IMAGE013
Figure 469432DEST_PATH_IMAGE014
Figure 56271DEST_PATH_IMAGE015
Figure 279442DEST_PATH_IMAGE016
)、2生成器G X G Y 一并为生成网络,
Figure 344350DEST_PATH_IMAGE013
Figure 163008DEST_PATH_IMAGE014
分别为X域的属性编码器和内容编码器,
Figure 920748DEST_PATH_IMAGE015
Figure 365636DEST_PATH_IMAGE016
则分别为Y域的属性编码器和内容编码器。其中的判别器由2个域判别器D X D Y 和1个内容判别器D C 组成。对于两个域判别器D X D Y ,需要能判断G X G Y 生成的图像是否属于其对应目标域,所以需要常规的生成对抗损失L ad 。在本发明中采用了最小二乘法来减少训练中的不稳定。对抗损失包括内容对抗损失和属性对抗损失。对于两个内容编码器(
Figure 234235DEST_PATH_IMAGE014
Figure 471181DEST_PATH_IMAGE016
)和内容判别器D C ,内容对抗损失的表达如下所示,
Figure 9610DEST_PATH_IMAGE032
Figure 833472DEST_PATH_IMAGE033
表示计算中括号项中的数学期望:
Figure DEST_PATH_IMAGE035
内容判别器D C 用于判断两个域中的内容编码特征是否一致。因为本方法认为两个域中的图片仅仅是风格不同,在内容上(都包含花、鸟)的特征应该是相同的,所以它们在内容的表达上应该可以被编码到共同的隐向量空间。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种基于注意力机制的解耦表达国画生成方法,其特征在于:所述国画生成方法包括:
步骤一、将白描画图像域设为X,工笔画图像域设为Y,并将样本xy分别输入注意力感知网络中得到x f 的内容编码
Figure 143820DEST_PATH_IMAGE001
和属性编码
Figure 550531DEST_PATH_IMAGE002
,以及得到y f 的内容编码
Figure 845246DEST_PATH_IMAGE003
和属性编码
Figure 882472DEST_PATH_IMAGE004
步骤二、将内容编码器和属性编码器处理得到的隐向量进行交换并融合,得到X域和Y域的图像,并融合背景图得到最终图像x y
步骤三、将内容编码器和属性编码器处理得到的隐向量直接融合得到X域和Y域的重建图像
Figure 895427DEST_PATH_IMAGE005
Figure 309091DEST_PATH_IMAGE006
,将重建图像
Figure 458313DEST_PATH_IMAGE005
Figure 932019DEST_PATH_IMAGE006
与样本xy的比较结果作为训练神经网络参数时的优化方向,以实现神经网络参数更新;
步骤四、通过判别器对生成的图像x y 进行判断以及内容编码进行判断,并对构建的基于注意力机制的解耦表达生成对抗模型进行训练;
步骤五、将步骤一中的样本xy替换为最终图像x y 分别输入注意力感知网络中,将内容编码器和属性编码器处理得到的隐向量进行交换并融合,得到交叉循环一致重建图像
Figure 166692DEST_PATH_IMAGE007
Figure 915205DEST_PATH_IMAGE008
,将交叉循环一致重建图像
Figure 184512DEST_PATH_IMAGE007
Figure 563541DEST_PATH_IMAGE008
与样本xy的比较结果作为训练神经网络参数时的优化方向;
步骤六、在训练满足约束条件后通过训练好的模型完成白描画、工笔画和水墨画不同风格中国传统绘画图像之间的转化。
2.根据权利要求1所述的一种基于注意力机制的解耦表达国画生成方法,其特征在于:所述将样本xy分别输入注意力感知网络中得到x f 的内容编码
Figure 551088DEST_PATH_IMAGE009
和属性编码
Figure 306555DEST_PATH_IMAGE010
,以及到y f 的内容编码
Figure 430369DEST_PATH_IMAGE011
和属性编码
Figure 245878DEST_PATH_IMAGE012
包括:
分别将样本xy输入注意力感知网络中得到注意力图x a y a ,注意力图x a y a 分别表示对样本xy核心区域的提取;
将注意力图x a 和样本x、注意力图y a 和样本y融合后得到x的前景被强化后的图x f y的前景被强化后的图y f
把图x f 馈送入图像域X的属性编码器
Figure 291080DEST_PATH_IMAGE013
和内容编码器
Figure 584658DEST_PATH_IMAGE014
,得到x f 的属性编码
Figure 562978DEST_PATH_IMAGE010
和内容编码
Figure 549389DEST_PATH_IMAGE009
,把图y f 馈送入图像域Y的属性编码器
Figure 245949DEST_PATH_IMAGE015
和内容编码器
Figure 608798DEST_PATH_IMAGE016
,得到y f 的内容编码
Figure 176045DEST_PATH_IMAGE011
和属性编码
Figure 598936DEST_PATH_IMAGE012
3.根据权利要求1所述的一种基于注意力机制的解耦表达国画生成方法,其特征在于:所述得到X域和Y域的图像,并融合背景图得到最终图像包括:将
Figure 517214DEST_PATH_IMAGE010
Figure 418174DEST_PATH_IMAGE011
融合馈送到X域的生成器G X 以生成X域的前景图像
Figure 902245DEST_PATH_IMAGE017
,将
Figure 230458DEST_PATH_IMAGE012
Figure 636031DEST_PATH_IMAGE009
也可以通过Y域的生成器G Y 生成Y域的前景图像
Figure 606261DEST_PATH_IMAGE018
,并通过注意力模块将背景图和前景图进行融合得到最终图像x y
4.根据权利要求3所述的一种基于注意力机制的解耦表达国画生成方法,其特征在于:所述通过判别器对生成的图像x y 进行判断以及内容编码进行判断包括:通过域判别器D X D Y 判断生成的最终图像x y 是否属于图像域X和图像域Y,通过内容判别器D C 将接收的
Figure 148101DEST_PATH_IMAGE009
Figure 912795DEST_PATH_IMAGE011
两个内容编码以判断其是否属于同一分布。
5.根据权利要求1-4中任意一项所述的一种基于注意力机制的解耦表达国画生成方法,其特征在于:所述基于注意力机制的解耦表达生成对抗模型包括由注意力模块、四个编码器、两个生成器和三个判别器;所述注意力模块由两个注意力网络组成,分别负责对图像域X和图像域Y的注意力图翻译;所述编码器用于得到图像域X和图像域Y的内容编码和属性编码;所述生成器用于对送入编码进行融合得到相应的图像;所述判别器用于对生成的图像x y 进行判断以及内容编码进行判断。
CN202211307882.7A 2022-10-25 2022-10-25 一种基于注意力机制的解耦表达国画生成方法 Active CN115375601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211307882.7A CN115375601B (zh) 2022-10-25 2022-10-25 一种基于注意力机制的解耦表达国画生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211307882.7A CN115375601B (zh) 2022-10-25 2022-10-25 一种基于注意力机制的解耦表达国画生成方法

Publications (2)

Publication Number Publication Date
CN115375601A true CN115375601A (zh) 2022-11-22
CN115375601B CN115375601B (zh) 2023-02-28

Family

ID=84073725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211307882.7A Active CN115375601B (zh) 2022-10-25 2022-10-25 一种基于注意力机制的解耦表达国画生成方法

Country Status (1)

Country Link
CN (1) CN115375601B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
US20150302436A1 (en) * 2003-08-25 2015-10-22 Thomas J. Reynolds Decision strategy analytics
CN110322416A (zh) * 2019-07-09 2019-10-11 腾讯科技(深圳)有限公司 图像数据处理方法、装置以及计算机可读存储介质
CN110992252A (zh) * 2019-11-29 2020-04-10 北京航空航天大学合肥创新研究院 一种基于潜变量特征生成的图像多风格转化方法
CN111161137A (zh) * 2019-12-31 2020-05-15 四川大学 一种基于神经网络的多风格国画花生成方法
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法
CN112581550A (zh) * 2020-12-02 2021-03-30 浙江工业大学 一种基于生成对抗网络的非匹配图像风格转换方法
CN112950661A (zh) * 2021-03-23 2021-06-11 大连民族大学 一种基于注意力生成对抗网络人脸卡通画生成方法
CN113448477A (zh) * 2021-08-31 2021-09-28 南昌航空大学 交互式图像编辑方法、装置、可读存储介质及电子设备
US20210304413A1 (en) * 2020-12-18 2021-09-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Image Processing Method and Device, and Electronic Device
US20210358164A1 (en) * 2020-05-15 2021-11-18 Nvidia Corporation Content-aware style encoding using neural networks
CN114219701A (zh) * 2021-11-10 2022-03-22 华南理工大学 敦煌壁画艺术风格转换方法、系统、计算机设备及存储介质
WO2022195285A1 (en) * 2021-03-17 2022-09-22 British Broadcasting Corporation Image processing using machine learning

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302436A1 (en) * 2003-08-25 2015-10-22 Thomas J. Reynolds Decision strategy analytics
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN110322416A (zh) * 2019-07-09 2019-10-11 腾讯科技(深圳)有限公司 图像数据处理方法、装置以及计算机可读存储介质
CN110992252A (zh) * 2019-11-29 2020-04-10 北京航空航天大学合肥创新研究院 一种基于潜变量特征生成的图像多风格转化方法
CN111161137A (zh) * 2019-12-31 2020-05-15 四川大学 一种基于神经网络的多风格国画花生成方法
US20210358164A1 (en) * 2020-05-15 2021-11-18 Nvidia Corporation Content-aware style encoding using neural networks
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法
CN112581550A (zh) * 2020-12-02 2021-03-30 浙江工业大学 一种基于生成对抗网络的非匹配图像风格转换方法
US20210304413A1 (en) * 2020-12-18 2021-09-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Image Processing Method and Device, and Electronic Device
WO2022195285A1 (en) * 2021-03-17 2022-09-22 British Broadcasting Corporation Image processing using machine learning
CN112950661A (zh) * 2021-03-23 2021-06-11 大连民族大学 一种基于注意力生成对抗网络人脸卡通画生成方法
CN113448477A (zh) * 2021-08-31 2021-09-28 南昌航空大学 交互式图像编辑方法、装置、可读存储介质及电子设备
CN114219701A (zh) * 2021-11-10 2022-03-22 华南理工大学 敦煌壁画艺术风格转换方法、系统、计算机设备及存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
XIAODAN LIANG等: "Generative Semantic Manipulation with Contrasting GAN", 《ARXIV:1708.00315V1》 *
YOUSSEF A. MEJJATI等: "Unsupervised Attention-guided Image-to-Image Translation", 《ARXIV:1806.02311V3》 *
ZHENLIANG HE等: "PA-GAN: Progressive Attention Generative Adversarial Network for Facial Attribute Editing", 《ARXIV:2007.05892V1》 *
侯佳英: "基于深度学习的图像生成算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
曹帅康: "基于深度神经网络的人脸属性编辑算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
林振峰等: "基于条件生成式对抗网络的图像转换综述", 《小型微型计算机系统》 *
黄盼盼: "基于生成对抗网络的图像翻译算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN115375601B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
Zhang et al. Domain enhanced arbitrary image style transfer via contrastive learning
Xia et al. Tedigan: Text-guided diverse face image generation and manipulation
Gal et al. An image is worth one word: Personalizing text-to-image generation using textual inversion
Cao et al. Carigans: Unpaired photo-to-caricature translation
Li et al. Anigan: Style-guided generative adversarial networks for unsupervised anime face generation
CN109447137B (zh) 一种基于分解因子的图像局部风格迁移方法
CN111932444A (zh) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
Wang et al. Imagedream: Image-prompt multi-view diffusion for 3d generation
CN111915693A (zh) 基于草图的人脸图像生成方法及系统
Singh et al. Neural style transfer: A critical review
CN111062290A (zh) 基于生成对抗网络中国书法风格转换模型构建方法及装置
Dong et al. CartoonLossGAN: Learning surface and coloring of images for cartoonization
CN111161405A (zh) 一种动物毛发三维重建方法
Liu et al. Reference-guided structure-aware deep sketch colorization for cartoons
Zhang et al. A unified arbitrary style transfer framework via adaptive contrastive learning
Delanoy et al. A Generative Framework for Image‐based Editing of Material Appearance using Perceptual Attributes
Chen et al. Comboverse: Compositional 3d assets creation using spatially-aware diffusion guidance
Li et al. PLDGAN: portrait line drawing generation with prior knowledge and conditioning target
Lan et al. Unsupervised style-guided cross-domain adaptation for few-shot stylized face translation
CN112288626A (zh) 一种基于双路径深度融合的人脸幻构方法及系统
CN115375601B (zh) 一种基于注意力机制的解耦表达国画生成方法
Wang et al. CLAST: Contrastive Learning for Arbitrary Style Transfer
He et al. Deliberation Learning for Image-to-Image Translation.
Sun et al. Make Your Brief Stroke Real and Stereoscopic: 3D-Aware Simplified Sketch to Portrait Generation
Bai et al. Itstyler: Image-optimized text-based style transfer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant