CN112819692B - 一种基于双重注意力模块的实时任意风格迁移方法 - Google Patents

一种基于双重注意力模块的实时任意风格迁移方法 Download PDF

Info

Publication number
CN112819692B
CN112819692B CN202110194892.3A CN202110194892A CN112819692B CN 112819692 B CN112819692 B CN 112819692B CN 202110194892 A CN202110194892 A CN 202110194892A CN 112819692 B CN112819692 B CN 112819692B
Authority
CN
China
Prior art keywords
image
style
training
content
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110194892.3A
Other languages
English (en)
Other versions
CN112819692A (zh
Inventor
王玥鸣
李娟�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110194892.3A priority Critical patent/CN112819692B/zh
Publication of CN112819692A publication Critical patent/CN112819692A/zh
Application granted granted Critical
Publication of CN112819692B publication Critical patent/CN112819692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

一种基于双重注意力模块的实时任意风格迁移算法属于计算机视觉中的图像风格迁移领域,本发明分为两个阶段:训练阶段和部署阶段。在训练阶段对方法所用模型进行训练,得到一个预训练的图像风格迁移模型。部署阶段将训练阶段所得到的预训练模型部署在应用中,通过输入一组内容图像和指定风格图像的图像对,得到生成的风格迁移图像。本发明在保证方法可对任意风格进行迁移的普遍适用性前提下,在生成质量和速度之间进行平衡,在生成速度达到实时性的同时,具有很高的图像生成质量。

Description

一种基于双重注意力模块的实时任意风格迁移方法
技术领域
本发明属于计算机视觉中的图像风格迁移领域,是一种利用卷积神经网络对图片艺术风格进行改变的方法。
背景技术
图像风格迁移是指通过计算机技术将图像的语义内容与其他图像的色彩、纹理等风格信息结合在一起的技术。它使图像在保有原有图像内容信息的同时,具有新的视觉风格。一直以来,研究者们一直在关注通过计算机技术生成具有特定艺术风格的图像。
早期的风格迁移方法只能针对特定的色彩、纹理或者笔触,通过色彩转换、滤波和纹理替换与合成等方法实现。在此基础上的一些图像处理方法如风格滤镜,已经成为了图像处理软件中的热门功能。不过这些方法中,每种方法仅能针对一种风格,实现效率有待加强,并且难以大规模应用。2016年深度学习技术在风格迁移任务中的应用使风格迁移可以实现对于任意风格的迁移。随之诞生的修图APP Prisma在用户中获得了巨大的热度并深受用户欢迎,这也展示了风格迁移技术在图像处理应用领域的巨大潜力。
目前的风格迁移方法存在一定局限性。一些方法可以获得很好的迁移速度,但生成图像的质量有待提高。一些方法可以获得较高的生成图像质量,但图像生成速度有限。此外,一些方法针对特定任务进行训练,可以在特定任务中取得十分优异的效果,但在其他任务中效果不佳,这影响了方法的普遍适用性。为了在更多领域获得更好的应用前景,平衡风格迁移方法的速度、质量和普遍适用性来获得一个效率更高的方法十分重要。
发明内容
本发明针对图像风格迁移方法的生成速度、质量和普遍适用性难以平衡的问题,提出了一种基于双重注意力模块的风格迁移方法,在保证方法可对任意风格进行迁移的普遍适用性前提下,在生成质量和速度之间进行平衡,在生成速度达到实时性的同时,具有很高的图像生成质量。
本发明提出的方法可分为两个阶段:训练阶段和部署阶段。在训练阶段对方法所用模型进行训练,得到一个预训练的图像风格迁移模型。部署阶段将训练阶段所得到的预训练模型部署在应用中,通过输入一组内容图像和指定风格图像的图像对,得到生成的风格迁移图像。
一种基于双重注意力模块的实时任意风格迁移方法,其特征在于:网络的输入为一个内容图像IC和一个风格图像IS,生成风格化图像ICS;网络结构分为三部分:编码器、双重注意力模块、解码器;模型使用预训练的VGG-19网络作为编码器和对称解码器;通过两个并行的双重注意力模块进行联合训练以实现风格迁移;
首先,利用VGG网络对内容图像和风格图像进行编码FC=E(IC)和FS=E(IS),并提取来自不同层的特征映射图;随后将来自同一层的内容特征图和风格特征图送入到一个双重注意力模块,生成经双重注意力模块处理后的特征图FD
FD=DA(FC,FS)
接下来将来自两个双重注意力模块输出的特征图进行融合;将来自Relu_5_1层的特征图经过上采样后与来自Relu_4_1层的特征图同位对应相加,并经过3×3卷积来组合两个特征图,得到
最后将送入解码器生成风格化的输出图像ICS
1.2双重注意力模块
为了更好的结合局部风格和全局风格,使用两组并行的双重注意力模块,分别输入不同层编码的特征图,再将输出的特征图进行融合;
1.2.1风格注意力模块
给定一组内容特征FC和风格特征FS,将其各自进行归一化处理后输入到一个卷积中,分别生成两个新的特征映射和/>其维度为C×H×W,将其重塑为C×N,其中N=H×W,然后将/>和/>的转置进行矩阵乘法,并使用softmax计算风格注意力图S:
sji表示第i个位置与第j个位置的相互关系,两个位置的特征表示越相似,它们之间的相关性就越大;
随后将风格特征FS直接送入到一个卷积中,生成一个特征映射h(FS),经过重塑后与S的转置进行矩阵乘法,再经维度处理后进行一次卷积,再与内容特征FC进行对位求和,最终输出FCSS
1.2.2通道注意力模块
给定一组内容特征FC和风格特征FS,直接用原始特征计算通道注意力映射;首先将FC和FS做归一化处理,得到和/>并将其重塑为C×N,其中N=H×W,然后将处理后的/>与/>的转置进行矩阵乘法,最后应用softmax获得通道注意力特征X:
xkl表示第k个通道与第l个通道的相互关系,两个通道的特征表示越相似,它们之间的相关性就越大;
接着,将X与FS的转置进行矩阵乘法,并重塑为C×H×W,然后将结果进行一次卷积,最后与FC进行对位求和,最终输出FCSC
1.2.3注意力模块的融合
在最后,将两个注意力模块的特征进行融合;通过一个卷积层对两个模块的输出进行变换,然后将二者对位求和来实现特征融合;
1.3损失函数
使用预训练的VGG-19作为编码器来计算用于训练整个网络的损失函数;
其中,总损失由三部分组成,内容损失风格损失/>和一致性损失/>λC和λS为超参数,λC表示内容损失权重,λS表示风格损失权重,这里设定为λC=1,λS=3;
内容损失是归一化特征与输出图像经VGG提取的归一化特征之间的欧氏距离:
风格损失的损失函数为:
其中,μ和σ为超参数,表示各自不同的预设权重,这里将μ设定为1,σ也设定为1;φi代表编码器中的每一层所输出的对应特征图,这些层包括Relu_1_1、Relu_2_1、Relu_3_1、Relu_4_1、Relu_5_1,并且每层具有相同的权重;
通过引入一个一致性损失函数用于同时保持内容图像的结构和参考图像的样式特征;一致性损失函数定义为:
其中,ICC和ISS表示由两个相同内容或样式图像合成的输出图像,φi表示编码器的每一层,λidendity1和λidendity2为超参数,表示一致性损失权重,这里设定λidendity1=1,λidendity2=50;
(1)模型训练数据收集与准备
训练模型所需数据包括内容图像数据集与风格图像数据集;方法模型训练
3.1训练数据处理
将一张内容图像和一张风格图像作为一组图像对;在保持纵横比的前提下,将每张图像的较小维数重新缩放到512,然后随机裁剪一个256×256像素的区域,这样一组256×256的图像对作为即将送入网络的训练数据;
3.2参数训练
通过计算模型整体网络结构中设计的总损失来对网络参数进行训练,每个循环不断优化/>并更新参数;当损失函数趋于收敛时停止训练;
(2)模型部署与图像生成
模型训练完成后得到可应用的预训练模型,对模型进行部署并应用;输入一组内容图像和风格图像的图像对,输出生成的风格化图像。
附图说明
图1为本发明提出的方法的模型网络结构图。
图2为本发明部署阶段的使用流程图。
具体实施方式
本发明采用的技术方案具体如下:
(3)方法模型设计与提出
1.1方法模型整体网络结构
风格迁移模型的整体网络结构如图1所示。网络的输入为一个内容图像IC和一个风格图像IS,生成风格化图像ICS。网络结构主要分为三部分:编码器、双重注意力模块、解码器。模型使用预训练的VGG-19网络作为编码器和对称解码器。通过两个并行的双重注意力模块进行联合训练以实现风格迁移。
首先,利用VGG网络对内容图像和风格图像进行编码FC=E(IC)和FS=E(IS),并提取来自不同层的特征映射图。随后将来自同一层的内容特征图和风格特征图送入到一个双重注意力模块,生成经双重注意力模块处理后的特征图FD
FD=DA(FC,FS)
接下来将来自两个双重注意力模块输出的特征图进行融合。将来自Relu_5_1层的特征图经过上采样后与来自Relu_4_1层的特征图同位对应相加,并经过3×3卷积来组合两个特征图,得到
最后将送入解码器生成风格化的输出图像ICS
1.2双重注意力模块
为了更好的结合局部风格和全局风格,使用两组并行的双重注意力模块,分别输入不同层编码的特征图,再将输出的特征图进行融合。
1.2.1风格注意力模块
风格注意力模块通过学习内容特征图和风格特征图之间的映射关系,来实现在内容特征图的每个位置适当地嵌入局部风格。
给定一组内容特征FC和风格特征FS,将其各自进行归一化处理后输入到一个卷积中,分别生成两个新的特征映射和/>其维度为C×H×W,将其重塑为C×N,其中N=H×W,然后将/>和/>的转置进行矩阵乘法,并使用softmax计算风格注意力图S:
sji表示第i个位置与第j个位置的相互关系,两个位置的特征表示越相似,它们之间的相关性就越大。
随后将风格特征FS直接送入到一个卷积中,生成一个特征映射h(FS),经过重塑后与S的转置进行矩阵乘法,再经维度处理后进行一次卷积,再与内容特征FC进行对位求和,最终输出FCSS
1.2.2通道注意力模块
特征图的通道映射可以看作是不同语义的表示,通过建立通道映射的相互关联,可以强调相互依赖的特征,改善特定语义的特征表示。因此,我们提出用通道注意力模块来增强网络的特征表示能力。
给定一组内容特征FC和风格特征FS,但与风格注意力模块不同,我们直接用原始特征计算通道注意力映射。首先将FC和FS做归一化处理,得到和/>并将其重塑为C×N,其中N=H×W,然后将处理后的/>与/>的转置进行矩阵乘法,最后应用softmax获得通道注意力特征X:
xkl表示第k个通道与第l个通道的相互关系,两个通道的特征表示越相似,它们之间的相关性就越大。
接着,将X与FS的转置进行矩阵乘法,并重塑为C×H×W,然后将结果进行一次卷积,最后与FC进行对位求和,最终输出FCSC
1.2.3注意力模块的融合
在最后,将两个注意力模块的特征进行融合。通过一个卷积层对两个模块的输出进行变换,然后将二者对位求和来实现特征融合。
1.3损失函数
我们使用预训练的VGG-19作为编码器来计算用于训练整个网络的损失函数。
其中,总损失由三部分组成,内容损失风格损失/>和一致性损失/>λC和λS为超参数,λC表示内容损失权重,λS表示风格损失权重,这里设定为λC=1,λS=3。
内容损失是归一化特征与输出图像经VGG提取的归一化特征之间的欧氏距离:
风格损失的损失函数为:
其中,μ和σ为超参数,表示各自不同的预设权重,这里将μ设定为1,σ也设定为1。φi代表编码器中的每一层所输出的对应特征图,这些层包括Relu_1_1、Relu_2_1、Relu_3_1、Relu_4_1、Relu_5_1,并且每层具有相同的权重。
通过引入一个一致性损失函数用于同时保持内容图像的结构和参考图像的样式特征。一致性损失函数定义为:
其中,ICC和ISS表示由两个相同内容(或样式)图像合成的输出图像,φi表示编码器的每一层,λidendity1和λidendity2为超参数,表示一致性损失权重,这里设定λidendity1=1,λidendity2=50。
(4)模型训练数据收集与准备
训练模型所需数据包括内容图像数据集与风格图像数据集。内容图像数据集采用MS-COCO数据集,包含大约80000张训练图像。风格图像数据集采用Wikiart收录的部分艺术图像作为训练图像,其中包含大约10000张训练图像。
(5)方法模型训练
3.1训练数据处理
将一张内容图像和一张风格图像作为一组图像对。在保持纵横比的前提下,将每张图像的较小维数重新缩放到512,然后随机裁剪一个256×256像素的区域,这样一组256×256的图像对作为即将送入网络的训练数据。
3.2参数训练
通过计算模型整体网络结构中设计的总损失来对网络参数进行训练,每个循环不断优化/>并更新参数。当损失函数趋于收敛时可以停止训练。
(6)模型部署与图像生成
模型训练完成后得到可应用的预训练模型,可以对模型进行部署并应用。如图2所示,在应用过程中,输入一组内容图像和风格图像的图像对,输出生成的风格化图像。

Claims (1)

1.一种基于双重注意力模块的实时任意风格迁移方法,其特征在于:网络的输入为一个内容图像IC和一个风格图像IS,生成风格化图像ICS;网络结构分为三部分:编码器、双重注意力模块、解码器;模型使用预训练的VGG-19网络作为编码器和对称解码器;通过两个并行的双重注意力模块进行联合训练以实现风格迁移;
首先,利用VGG网络对内容图像和风格图像进行编码FC=E(IC)和FS=E(IS),并提取来自不同层的特征映射图;随后将来自同一层的内容特征图和风格特征图送入到一个双重注意力模块,生成经双重注意力模块处理后的特征图FD
FD=DA(FC,FS)
接下来将来自两个双重注意力模块输出的特征图进行融合;将来自Relu_5_1层的特征图经过上采样后与来自Relu_4_1层的特征图同位对应相加,并经过3×3卷积来组合两个特征图,得到
最后将送入解码器生成风格化的输出图像ICS
1.2双重注意力模块
为了更好的结合局部风格和全局风格,使用两组并行的双重注意力模块,分别输入不同层编码的特征图,再将输出的特征图进行融合;
1.2.1风格注意力模块
给定一组内容特征FC和风格特征FS,将其各自进行归一化处理后输入到一个卷积中,分别生成两个新的特征映射和/>其维度为C×H×W,将其重塑为C×N,其中N=H×W,然后将/>和/>的转置进行矩阵乘法,并使用softmax计算风格注意力图S:
sji表示第i个位置与第j个位置的相互关系,两个位置的特征表示越相似,它们之间的相关性就越大;
随后将风格特征FS直接送入到一个卷积中,生成一个特征映射h(FS),经过重塑后与S的转置进行矩阵乘法,再经维度处理后进行一次卷积,再与内容特征FC进行对位求和,最终输出FCSS
1.2.2通道注意力模块
给定一组内容特征FC和风格特征FS,直接用原始特征计算通道注意力映射;首先将FC和FS做归一化处理,得到和/>并将其重塑为C×N,其中N=H×W,然后将处理后的/>与/>的转置进行矩阵乘法,最后应用softmax获得通道注意力特征X:
xkl表示第k个通道与第l个通道的相互关系,两个通道的特征表示越相似,它们之间的相关性就越大;
接着,将X与FS的转置进行矩阵乘法,并重塑为C×H×W,然后将结果进行一次卷积,最后与FC进行对位求和,最终输出FCSC
1.2.3注意力模块的融合
在最后,将两个注意力模块的特征进行融合;通过一个卷积层对两个模块的输出进行变换,然后将二者对位求和来实现特征融合;
1.3损失函数
使用预训练的VGG-19作为编码器来计算用于训练整个网络的损失函数;
其中,总损失由三部分组成,内容损失风格损失/>和一致性损失/>λC和λS为超参数,λC表示内容损失权重,λS表示风格损失权重,这里设定为λC=1,λS=3;
内容损失是归一化特征与输出图像经VGG提取的归一化特征之间的欧氏距离:
风格损失的损失函数为:
其中,μ和σ为超参数,表示各自不同的预设权重,这里将μ设定为1,σ也设定为1;φi代表编码器中的每一层所输出的对应特征图,这些层包括Relu_1_1、Relu_2_1、Relu_3_1、Relu_4_1、Relu_5_1,并且每层具有相同的权重;
通过引入一个一致性损失函数用于同时保持内容图像的结构和参考图像的样式特征;一致性损失函数定义为:
其中,ICC和ISS表示由两个相同内容或样式图像合成的输出图像,φi表示编码器的每一层,λidendity1和λidendity2为超参数,表示一致性损失权重,这里设定λidendity1=1,λidendity2=50;
(1)模型训练数据收集与准备
训练模型所需数据包括内容图像数据集与风格图像数据集;
(2)方法模型训练
3.1训练数据处理
将一张内容图像和一张风格图像作为一组图像对;在保持纵横比的前提下,将每张图像的较小维数重新缩放到512,然后随机裁剪一个256×256像素的区域,这样一组256×256的图像对作为即将送入网络的训练数据;
3.2参数训练
通过计算模型整体网络结构中设计的总损失来对网络参数进行训练,每个循环不断优化/>并更新参数;当损失函数趋于收敛时停止训练;
(3)模型部署与图像生成
模型训练完成后得到可应用的预训练模型,对模型进行部署并应用;输入一组内容图像和风格图像的图像对,输出生成的风格化图像。
CN202110194892.3A 2021-02-21 2021-02-21 一种基于双重注意力模块的实时任意风格迁移方法 Active CN112819692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110194892.3A CN112819692B (zh) 2021-02-21 2021-02-21 一种基于双重注意力模块的实时任意风格迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110194892.3A CN112819692B (zh) 2021-02-21 2021-02-21 一种基于双重注意力模块的实时任意风格迁移方法

Publications (2)

Publication Number Publication Date
CN112819692A CN112819692A (zh) 2021-05-18
CN112819692B true CN112819692B (zh) 2023-10-31

Family

ID=75864432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110194892.3A Active CN112819692B (zh) 2021-02-21 2021-02-21 一种基于双重注意力模块的实时任意风格迁移方法

Country Status (1)

Country Link
CN (1) CN112819692B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989102B (zh) * 2021-10-19 2023-01-06 复旦大学 一种具有高保形性的快速风格迁移方法
CN114025198B (zh) * 2021-11-08 2023-06-27 深圳万兴软件有限公司 基于注意力机制的视频卡通化方法、装置、设备及介质
CN115330590B (zh) * 2022-08-24 2023-07-11 苏州大学 一种图像风格迁移方法及系统
CN117094882B (zh) * 2023-10-18 2024-01-12 中南大学 一种无损数字刺绣图像风格迁移方法、系统、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565757B2 (en) * 2017-06-09 2020-02-18 Adobe Inc. Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696027A (zh) * 2020-05-20 2020-09-22 电子科技大学 一种基于适应性注意力机制的多模态的图像风格迁移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Arbitrary Style Transfer With Style-Attentional Networks;Dae Young Park 等;2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR);第1-9页 *

Also Published As

Publication number Publication date
CN112819692A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112819692B (zh) 一种基于双重注意力模块的实时任意风格迁移方法
Li et al. Single image snow removal via composition generative adversarial networks
CN110570377A (zh) 一种基于组归一化的快速图像风格迁移方法
Zhao et al. Invertible image decolorization
CN113392766A (zh) 一种基于注意力机制的人脸表情识别方法
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN112686816A (zh) 一种基于内容注意力机制和掩码先验的图像补全方法
CN111241963A (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN110992374A (zh) 一种基于深度学习的头发精细化分割方法及系统
CN116229077A (zh) 一种基于改进的Mask-R-CNN网络的数学函数图像实例分割方法
CN113034355A (zh) 一种基于深度学习的肖像图像双下巴去除方法
CN115496650A (zh) 一种基于生成对抗网络的妆容迁移方法
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN114093013A (zh) 一种深度伪造人脸逆向溯源方法及系统
CN117237190B (zh) 用于边缘移动设备的轻量化图像超分辨率重建系统及方法
Yu et al. Stacked generative adversarial networks for image compositing
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
CN117315069A (zh) 基于图像特征对齐的人体姿态迁移方法
CN113538608A (zh) 基于生成对抗网络的可控人物图像生成方法
CN115937429A (zh) 一种基于单张图像的细粒度3d人脸重建方法
CN116703719A (zh) 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法
CN116309774A (zh) 一种基于事件相机的密集三维重建方法
CN113393377B (zh) 一种基于视频编码的单帧图像超分辨率方法
Nguyen et al. Deep feature rotation for multimodal image style transfer
Yan et al. BeautyREC: Robust, Efficient, and Component-Specific Makeup Transfer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant