CN112884669B - 基于多尺度内容注意力机制的图像修复方法、存储介质和终端 - Google Patents

基于多尺度内容注意力机制的图像修复方法、存储介质和终端 Download PDF

Info

Publication number
CN112884669B
CN112884669B CN202110211937.3A CN202110211937A CN112884669B CN 112884669 B CN112884669 B CN 112884669B CN 202110211937 A CN202110211937 A CN 202110211937A CN 112884669 B CN112884669 B CN 112884669B
Authority
CN
China
Prior art keywords
edge
content
image
map
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110211937.3A
Other languages
English (en)
Other versions
CN112884669A (zh
Inventor
匡平
杜雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110211937.3A priority Critical patent/CN112884669B/zh
Publication of CN112884669A publication Critical patent/CN112884669A/zh
Application granted granted Critical
Publication of CN112884669B publication Critical patent/CN112884669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于多尺度内容注意力机制的图像修复方法、存储介质和终端,包括以下步骤:将待修复图像输入至训练完成的图像修复网络中进行图像修复;所述图像修复网络包括顺次连接的边缘检测模块、边缘生成对抗网络和内容生成对抗网络;所述边缘生成对抗网络包括边缘生成器G1,所述内容生成对抗网络包括内容生成器G2;所述边缘生成器G1和内容生成器G2均包括若干卷积层、若干残差块和若干反卷积层,在所述反卷积层之间还包括一个多尺度内容注意力模块。本发明利用已知补丁的特征作为卷积过滤器来处理预生成的补丁,并利用多尺度补丁实现残缺生成区域与周围背景区域的基本特征和整体风格的一致性。

Description

基于多尺度内容注意力机制的图像修复方法、存储介质和 终端
技术领域
本发明涉及图像修复领域,尤其涉及基于多尺度内容注意力机制的图像修复方法、存储介质和终端。
背景技术
图像补全算法对需要移除的内容添加特殊遮挡的标记并处理,生成满足视觉要求逼真的照片。图像补全技术是一种介于图像编辑和图像生成的技术,利用破损部分的领域图像信息和整体结构信息对缺失部分进行填充和修复。修补部分能与原始图像需要达到风格统一、过渡自然、符合图像语义的要求,满足观察者的视觉需求,使观察者无法分辨出真实图像与生成图像。
针对图像补全任务,研究人员提出了多种不同的方法,大致可分为三类:(1)基于像素点传播扩散的方法(Diffusion-based methods),通过引入欧拉弹性来传播缺失部分周围的局部信息来填充该区域。(2)基于补丁的方法(Patch-based methods),通过从相同图像(或图像集合)的相似区域(即源)复制信息来填充缺失的区域(即目标)。(3)基于深度学习的方法(Deep learning-based methods),通过生成对抗网络(GAN)来学习图像特征,使用卷积神经网络来训练生成模型补全缺损图像,添加辅助网络进行训练鉴别器,判断输出图像是生成图像还是真实图像。
目前,图像修复算法存在的主要缺陷是:(1)目前图像修复算法在大面积丢失时或高纹理区域缺失时,补全结果不符合图像语义;(2)修复结果与原始图像的过渡不够自然、风格不够统一、细节纹理模糊不清。
发明内容
本发明的目的在于克服现有技术的不足,提供基于多尺度内容注意力机制的图像修复方法、存储介质和终端。
本发明的目的是通过以下技术方案来实现的:
本发明的第一方面,提供基于多尺度内容注意力机制的图像修复方法,包括以下步骤:
将待修复图像输入至训练完成的图像修复网络中进行图像修复;
所述图像修复网络包括顺次连接的边缘检测模块、边缘生成对抗网络和内容生成对抗网络;所述边缘生成对抗网络包括边缘生成器G1和边缘鉴别器D1,所述内容生成对抗网络包括内容生成器G2和内容鉴别器D2
所述边缘生成器G1和内容生成器G2均包括若干卷积层、若干残差块和若干反卷积层,在所述反卷积层之间还包括一个多尺度内容注意力模块;所述多尺度内容注意力模块分别利用侧重提取图像风格特征的第一补丁和侧重提取图像基本特征的第二补丁,作为卷积滤波器来处理预生成的特征补丁,合并特征后输出。
进一步地,所述图像修复网络的训练包括以下子步骤:
获取残缺图样本
Figure BDA0002952675860000021
完整图样本Igt和遮罩图样本M;
将残缺图样本
Figure BDA0002952675860000022
输入至边缘检测模块中得到残缺图的边缘图
Figure BDA0002952675860000023
并将完整图样本输入至边缘检测模块中得到完整图的边缘图Cgt
将残缺图的边缘图
Figure BDA0002952675860000024
残缺图的灰度图
Figure BDA0002952675860000025
和遮罩图M输入至边缘生成对抗网络,得到边缘假想图Cpred
利用所述边缘假想图Cpred、遮罩图M、完整图的边缘图Cgt计算得到完整图的边缘假想图Ccomp,将所述完整图的边缘假想图Ccomp和残缺图样本
Figure BDA0002952675860000026
输入至内容生成对抗网络,得到内容修复图Ipred
利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算边缘生成对抗网络的损失,对边缘生成对抗网络进行更新;
利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred、残缺图的边缘图
Figure BDA0002952675860000027
非残缺区域的内容再次生成图
Figure BDA0002952675860000028
计算内容生成对抗网络的损失,对内容生成对抗网络进行更新。
进一步地,所述利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算边缘生成对抗网络的损失,包括:
利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算得到对抗性损失Ladv,1
利用边缘假想图Cpred、完整图的边缘图Cgt计算得到特征匹配损失LFM
利用对抗性损失Ladv,1和特征匹配损失LFM计算边缘生成对抗网络的损失。
进一步地,所述利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred、残缺图的边缘图
Figure BDA0002952675860000029
非残缺区域的内容再次生成图
Figure BDA00029526758600000210
计算内容生成对抗网络的损失,包括:
利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred计算得到对抗性损失Ladv,2
利用完整图样本Igt、内容修复图Ipred计算得到感知损失Lperc
利用残缺图样本
Figure BDA0002952675860000031
(即非残缺区域的真实图)、非残缺区域的内容再次生成图
Figure BDA0002952675860000032
计算得到风格损失Lstyle
利用完整图的边缘假想图Ccomp、残缺图的边缘图
Figure BDA0002952675860000033
计算得到一致性损失Lcycle
利用对抗性损失Ladv,2、感知损失Lperc、风格损失Lstyle、一致性损失Lcycle和l1损失计算内容生成对抗网络的损失。
进一步地,所述对抗性损失Ladv,2采用多区域鉴别器计算,所述多区域鉴别器包括多局部鉴别单元和全局鉴别单元,所述多局部鉴别单元通过单独处理多个特征图来检测图像中任意形状、区域的空洞修复结果,所述全局鉴别单元将整张图像作为作用域,用于判定整体风格的一致性修复结果;
所述多局部鉴别单元和全局鉴别单元均包括若干顺次连接的卷积层,在除最后一个卷积层以外的其他卷积层的后方连接有BN层和激活层;
对于全局鉴别单元,在最后一个卷积层后接入一个全连接层,将最后一个卷积层输出的特征处理为多通道的特征图,最后再通过一个全连接层和Sigmoid回归器判定全局图像的真假;
对于多局部鉴别单元,最后一层的全连接层使用不同的像素权重进行1×1卷积运算,并对最后层的每个像素采用单独的回归器判别其真假;
将全局鉴别单元和多局部鉴别单元得到的各输出值进行均值化处理,得到最终的判别结果。
进一步地,所述多尺度内容注意力模块的具体实现包括:
利用侧重提取图像风格特征的3*3补丁和侧重提取图像基本特征的1*1补丁作为卷积滤波器提取背景特征;
利用欧式距离度量补丁的相似度得分d(x,y),(x',y')
采用核大小为k的自左向右,再自顶向下的进行注意力传播;
将生成的特征图和原始特征图连接起来;
利用逐像素卷积运算对所有特征图进行合并,将通道数减少到原始通道数。
进一步地,所述将生成的特征图和原始特征图连接起来,用<gin,μgatt1*1,γgatt3*3>表示,其中μ和γ分别表示gatt1*1特征图和gatt3*3特征图的贡献权重;在所述边缘生成器G1中,预设μ>γ;所述内容生成器G2中,预设γ>μ。
进一步地,所述残差块为AdaIN残差块,所述AdaIN残差块包括:顺次连接的拓展卷积层、第一AdaIN函数模块、第一ReLU激活模块、卷积层、第二AdaIN函数模块、加法器和第二ReLU激活模块,所述加法器的第二输入端接入AdaIN残差块的输入特征。
本发明的第二方面,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于多尺度内容注意力机制的图像修复方法的步骤。
本发明的第三方面,提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于多尺度内容注意力机制的图像修复方法的步骤。
本发明的有益效果是:
(1)在本发明的一示例性实施例中,基于图像修复方法提出了一种新的多尺度内容注意力模块,相较于现有技术,该模块利用已知补丁的特征作为卷积过滤器来处理预生成的补丁,并利用多尺度补丁实现残缺生成区域与周围背景区域的基本特征和整体风格的一致性。
(2)在本发明的又一示例性实施例中,受艺术家绘画时“先线后色”的工作方式启发,我们将图像修复分为边缘轮廓(高频)和色彩内容(低频),因为线条不仅勾勒和定义空间和形状,而且在构图中起着至关重要的作用。完整的边缘信息能给予网络丰富且关键的特征信息,最终让图像的修复结果更符合视觉效果。
(3)在本发明的又一示例性实施例中,提出了多区域鉴别器,用于训练不规则空洞的修复。传统的图像修复网络同时使用全局和单个局部鉴别器来确定图像是否被一致地完成,但单个局部鉴别器只能处理大小固定的正方形孔洞区域。多区域鉴别器则较好的解决了该问题。
(4)在本发明的又一示例性实施例中,在残差块中同时使用扩展卷积层和AdaIN函数,而现有技术仅仅只是在编码器和解码器中使用AdaIN函数。因此,本示例性实施例将AdaIN函数引入到残差块中,在特征图层面上通过改变特征的数据分布来实现图像生成,计算开销和存储开销都较小,且易实现。扩展卷积层通过提升感受野,可增大残差块的特征图像的有效面积和空间结构。
附图说明
图1为本发明一示例性实施例公开的图像修复网络结构示意图;
图2为本发明一示例性实施例公开的多区域鉴别器结构示意图;
图3为本发明一示例性实施例公开的多尺度内容注意力模块结构示意图;
图4为现有技术中残差块的结构示意图;
图5为本发明一示例性实施例公开的AdaIN残差块结构示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
如图1所示,本发明的第一方面,提供基于多尺度内容注意力机制的图像修复方法,包括以下步骤:
将待修复图像输入至训练完成的图像修复网络中进行图像修复;
如图1所示,所述图像修复网络包括顺次连接的边缘检测模块、边缘生成对抗网络和内容生成对抗网络;所述边缘生成对抗网络包括边缘生成器G1和边缘鉴别器D1,所述内容生成对抗网络包括内容生成器G2和内容鉴别器D2
所述边缘生成器G1和内容生成器G2均包括若干卷积层、若干残差块和若干反卷积层,在所述反卷积层之间还包括一个多尺度内容注意力模块;所述多尺度内容注意力模块分别利用侧重提取图像风格特征的第一补丁和侧重提取图像基本特征的第二补丁,作为卷积滤波器来处理预生成的特征补丁,合并特征后输出。
具体地,在该示例性实施例中,基于图像修复方法提出了一种新的多尺度内容注意力模块,相较于现有技术,该模块利用已知补丁的特征作为卷积过滤器来处理预生成的补丁,并利用多尺度补丁实现残缺生成区域与周围背景区域的基本特征和整体风格的一致性。
更优地,在一示例性实施例中,如图1所示,所述图像修复网络的训练包括以下子步骤:
S101:获取残缺图样本
Figure BDA0002952675860000061
完整图样本Igt和遮罩图样本M。
其中,该步骤用于搜集整理数据样本,将所有残缺图样本、完整图样本、遮罩图Mask处理为相同大小尺寸256×256。
S103:将残缺图样本
Figure BDA0002952675860000062
输入至边缘检测模块中得到残缺图的边缘图
Figure BDA0002952675860000063
并将完整图样本输入至边缘检测模块中得到完整图的边缘图Cgt
具体地,在其中一示例性实施例中,边缘检测模块采用Canny边缘检测算法。
S105:将残缺图的边缘图
Figure BDA0002952675860000064
残缺图的灰度图
Figure BDA0002952675860000065
和遮罩图M输入至边缘生成对抗网络,得到边缘假想图Cpred
具体地,在该步骤中,基于步骤S103中提取的残缺图的边缘图
Figure BDA0002952675860000066
通过一个边缘(高频信息)生成对抗网络,生成不规则缺失区域的边缘假想图Cpred
并且在又一示例性实施例中,在不规则缺失区域的边缘假想图Cpred的基础上,可手动调整边缘以给予下一个内容修复网络更真实的特征信息,即添加关键边缘、擦去不合理边缘。
同时,对于边缘生成对抗网络的具体结构,该步骤主要适用于边缘生成对抗网络中的边缘生成器G1,边缘生成器G1的输入图像包括残缺图像的边缘图
Figure BDA0002952675860000067
灰度图
Figure BDA0002952675860000068
和遮罩图M(1代表缺失区域,0代表背景),通过网络的特征学习,边缘生成器G1的输出图为边缘假想图
Figure BDA0002952675860000069
S107:利用所述边缘假想图Cpred、遮罩图M、完整图的边缘图Cgt计算得到完整图的边缘假想图Ccomp,将所述完整图的边缘假想图Ccomp和残缺图样本
Figure BDA00029526758600000610
输入至内容生成对抗网络,得到内容修复图Ipred
具体地,在该步骤中,根据边缘假想图和原始残缺图,另一个内容(低频信息)生成对抗网络对缺失区域的色彩以及上下文信息进行RGB像素值填充。
同时,对于内容生成对抗网络的具体结构,该步骤主要适用于内容生成对抗网络的内容生成器G2,内容生成器G2的输入包括残缺图样本
Figure BDA00029526758600000611
和完整图的边缘假想图Ccomp=Cgt⊙(1-M)+Cpred⊙M,输出是内容修复图
Figure BDA0002952675860000071
S109:利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算边缘生成对抗网络的损失,对边缘生成对抗网络进行更新。
具体地,在该步骤中,对于边缘生成对抗网络的具体结构,该步骤主要适用于边缘生成对抗网络中的边缘鉴别器D1,边缘鉴别器D1的输入图像是真实的边缘图Cgt和生成的边缘假想图Cpred,通过网络来预测该边缘图是否为真实的。
S111:利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred、残缺图的边缘图
Figure BDA0002952675860000072
非残缺区域的内容再次生成图
Figure BDA0002952675860000073
计算内容生成对抗网络的损失,对内容生成对抗网络进行更新。
具体地,在该步骤中,对于内容生成对抗网络的具体结构,该步骤主要适用于内容生成对抗网络的内容鉴别器D2,内容鉴别器D2的输入图像是真实的完整图像Igt和生成的内容修复图Ipred,通过网络来预测该内容图是否为真实的。
需要说明的是,本示例性实施例先受艺术家绘画时“先线后色”的工作方式启发,我们将图像修复分为边缘轮廓(高频)和色彩内容(低频),因为线条不仅勾勒和定义空间和形状,而且在构图中起着至关重要的作用。完整的边缘信息能给予网络丰富且关键的特征信息,最终让图像的修复结果更符合视觉效果。
更优地,在一示例性实施例中,所述利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算边缘生成对抗网络的损失,包括:
S201:利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算得到对抗性损失Ladv,1
具体地,在一示例性实施例中,对抗性损失Ladv,1的定义为:
Figure BDA0002952675860000074
式中,E表示期望。
S203:利用边缘假想图Cpred、完整图的边缘图Cgt计算得到特征匹配损失LFM
具体地,在一示例性实施例中,特征匹配损失LFM的定义为:
Figure BDA0002952675860000081
式中,L是边缘鉴别器D1的最终卷积层,Ni是第i激活层(例如ReLU)中的元素数,
Figure BDA0002952675860000082
是边缘鉴别器D1第i层的激活值。
S205:利用对抗性损失Ladv,1和特征匹配损失LFM计算边缘生成对抗网络的损失。
具体地,在一示例性实施例中,边缘生成对抗网络的训练目标包括对抗性损失Ladv,1和特征匹配损失LFM
Figure BDA0002952675860000083
式中,λadv,1和λFM是正则化参数。
更优地,在一示例性实施例中,所述利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred、残缺图的边缘图
Figure BDA0002952675860000084
非残缺区域的内容再次生成图
Figure BDA0002952675860000085
计算内容生成对抗网络的损失,包括:
S301:利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred计算得到对抗性损失Ladv,2
具体地,在一示例性实施例中,对抗性损失Ladv,2的定义如下:
Figure BDA0002952675860000086
式中,N是多区域鉴别器中多局部鉴别单元的总个数,当k∈[1,N]时,
Figure BDA0002952675860000087
都是指多局部鉴别单元,而
Figure BDA0002952675860000088
则是指全局鉴别单元。(该内容在下一示例性实施例进行展开说明)
S303:利用完整图样本Igt、内容修复图Ipred计算得到感知损失Lperc
具体地,在一示例性实施例中,感知损失函数将网络的中间层激活值作为目标,计算真实图像和生成图像经过鉴别器中间层的两个激活值的欧氏距离,具体公式如下:
Figure BDA0002952675860000089
其中,φi是鉴别器网络第i层的激活映射。在本示例性实施例中,φi对应于鉴别器中各ReLU层的激活图。同时,这些激活图还用于计算风格损失Lstyle
S305:利用残缺图样本
Figure BDA0002952675860000091
非残缺区域的内容再次生成图
Figure BDA0002952675860000092
计算得到风格损失Lstyle
具体地,损失函数Lstyle测量激活图的协方差差异值。给定尺寸为Cj×Hj×Wj的特征图,
Figure BDA0002952675860000093
是由激活图φj构成的Cj×CjGram矩阵,具体的Lstyle计算公式如下:
Figure BDA0002952675860000094
S307:利用完整图的边缘假想图Ccomp、残缺图的边缘图
Figure BDA0002952675860000095
计算得到一致性损失Lcycle
内容生成网络产生的完整RGB内容图Ipred,可再通过Canny算法提取出边缘图
Figure BDA0002952675860000096
一致性损失函数Lcycle则是将重新生成的边缘图
Figure BDA0002952675860000097
与边缘生成对抗网络产生的边缘图Ccomp做比较,测量两个边缘图的差异性,定义如下:
Figure BDA0002952675860000098
S309:利用对抗性损失Ladv,2、感知损失Lperc、风格损失Lstyle、一致性损失Lcycle和l1损失计算内容生成对抗网络的损失。
Figure BDA0002952675860000099
式中的损失函数前面的参数为权重设置参数。
更优地,如图2所示,所述对抗性损失Ladv,2采用多区域鉴别器计算(由区域集成网络启发的多区域鉴别器),所述多区域鉴别器包括多局部鉴别单元和全局鉴别单元,所述多局部鉴别单元通过单独处理多个特征图来检测图像中任意形状、区域的空洞修复结果,所述全局鉴别单元将整张图像作为作用域,用于判定整体风格的一致性修复结果;
所述多局部鉴别单元和全局鉴别单元均包括若干顺次连接的卷积层(在一示例性实施例中,核大小为5×5和步长2的6个卷积层叠加以捕获整个图像的特征),在除最后一个卷积层以外的其他卷积层的后方连接有BN层(Batch Normalization函数)和激活层(LeakyReLU激活函数),且每层卷积都进行了光谱归一化处理;
对于全局鉴别单元,在最后一个卷积层后接入一个全连接层,将最后一个卷积层输出的特征处理为多通道的特征图,最后再通过一个全连接层和Sigmoid回归器判定全局图像的真假;
对于多局部鉴别单元,最后一层的全连接层使用不同的像素权重进行1×1卷积运算,并对最后层的每个像素采用单独的回归器判别其真假。由于最后一层的卷积特征图中的每个激活值都是由输入图像中的一个感受野贡献的,因此我们可以将输入图像中的任意残缺区域投影到卷积特征图的各个区域。
最后,将全局鉴别单元和多局部鉴别单元得到的各输出值进行均值化处理,得到最终的判别结果。
该示例性实施例提出了多区域鉴别器,用于训练不规则空洞的修复。传统的图像修复网络同时使用全局和单个局部鉴别器来确定图像是否被一致地完成,但单个局部鉴别器只能处理大小固定的正方形孔洞区域。多区域鉴别器则较好的解决了该问题。
更优地,在一示例性实施例中,如图3所示,所述多尺度内容注意力模块的具体实现包括:
S401:利用侧重提取图像风格特征的3*3补丁和侧重提取图像基本特征的1*1补丁作为卷积滤波器提取背景特征。
具体地,在该示例性实施例中,首先在背景中分别以3*3补丁和1*1补丁(即像素)作为卷积滤波器提取背景特征。3*3补丁更侧重提取图像风格特征,而1*1补丁侧重提取图像的基本特征(如轮廓)。通过3*3补丁和1*1补丁得到的特征图都为进行后续操作。
S403:利用欧式距离度量补丁的相似度得分d(x,y),(x',y')
具体地,在该示例性实施例中,利用欧氏距离(Euclidean distance)代替余弦相似度来度量补丁的相似度得分d(x,y),(x',y'),且不需要标准化过程。因为欧式距离同时考虑了特征补丁的两个向量之间的夹角和其大小,更适合于特征补丁的重构。
d(x,y),(x',y')=||fx,y-bx',y'||
式中,(x,y)和(x’,y’)表示补丁的坐标值,fx,y表示前景补丁,bx’,y’表示背景补丁的大小。
然而,由于欧氏距离的取值范围为[0,∞),很难直接应用于softmax函数。为了解决这个问题,我们定义截断距离相似性得分
Figure BDA0002952675860000101
如下:
Figure BDA0002952675860000102
式中,σ(d(x,y),(x′,y′))表示d(x,y),(x',y')的方差,m(d(x,y),(x',y'))表示d(x,y),(x',y')的期望值。
为了计算每个补丁的权重,该示例性实施例在利用欧式距离得到的分数图的通道上使用softmax,得到softmax相似度
Figure BDA0002952675860000111
Figure BDA0002952675860000112
式中,λ表示是调节可缩放softmax函数的超参数。
S405:采用核大小为k的自左向右,再自顶向下的进行注意力传播。
具体地,在该示例性实施例中,由于前景补丁的偏移可能对应于背景补丁的相等偏移,因此我们采用核大小为k的自左向右,再自顶向下的注意力传播,达到更好合并补丁的目的。
Figure BDA0002952675860000113
S407:将生成的特征图和原始特征图连接起来。
具体地,将生成的特征图和原始特征图连接起来,用<gin,μgatt1*1,γgatt3*3>表示,其中μ和γ分别表示gatt1*1特征图和gatt3*3特征图的贡献权重。而在又一示例性实施例中,在本示例性实施例中的灰度边缘生成阶段中,网络(即边缘生成对抗网络)更关注基本特征(如轮廓),因此在一优选示例性实施例中预设μ>γ,而在RGB内容生成阶段中,网络(即内容生成对抗网络)更关注图像的整体风格,因此在该优选示例性实施例中预设γ>μ。
最终,为了确定当前各类特征图上哪个细节级别是最重要的,这些特征图随后被输入到压缩-激励模块中,以重新加权不同的通道。本示例性实施例用fSE()表示压缩和激励函数,该模块的输出可用fSE<gin,μgatt1*1,γgatt3*3>表示。
S409:利用逐像素卷积运算对所有特征图进行合并,将通道数减少到原始通道数。
具体地,在该步骤中,利用逐像素卷积运算对所有特征图进行合并,将通道数减少到原始通道数。由于输出通道数与输入通道数相同,因此我们提出的模块很容易添加到任何其他修复模型中。模块最终的输出可以表示为:
gout=fConv(fSE(<gin,μgatt1*1,γgatt3*3>))
该机制利用已知补丁的特征作为卷积过滤器来处理预生成的补丁,并利用多尺度补丁实现残缺生成区域与周围背景区域的基本特征和整体风格的一致性。
更优地,在一示例性实施例中,所述残差块为AdaIN残差块,所述AdaIN残差块包括:顺次连接的拓展卷积层、第一AdaIN函数模块、第一ReLU激活模块、卷积层、第二AdaIN函数模块、加法器和第二ReLU激活模块,所述加法器的第二输入端接入AdaIN残差块的输入特征。
具体地,现有技术的原始残差块如图4所示,原始残差块分为两部分:恒等映射部分xl,反应在下图右边的连接线;残差部分F(xl),该部分通常由两到三个卷积操作组成。
而该示例性实施例中的AdaIN残差块,与原始残差块相比,本文改进的残差块1)引入了AdaIN函数;2)在第一个卷积模块中,使用了扩展卷积层。改进的残差块实现了网络更快的收敛速度和更低的损失值。AdaIN残差块的具体结构如图5所示。
具体地,需要说明的是,本示例性实施例是在残差块中同时使用扩展卷积层和AdaIN函数,而现有技术仅仅只是在编码器和解码器中使用AdaIN函数。因此,本示例性实施例将AdaIN函数引入到残差块中,在特征图层面上通过改变特征的数据分布来实现图像生成,计算开销和存储开销都较小,且易实现。扩展卷积层通过提升感受野,可增大残差块的特征图像的有效面积和空间结构。
基于上述任一示例性实施例,本发明的又一示例性实施例提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的基于多尺度内容注意力机制的图像修复方法的步骤。
基于上述任一示例性实施例,本发明的又一示例性实施例提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的基于多尺度内容注意力机制的图像修复方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得装置执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.基于多尺度内容注意力机制的图像修复方法,其特征在于:包括以下步骤:
将待修复图像输入至训练完成的图像修复网络中进行图像修复;
所述图像修复网络包括顺次连接的边缘检测模块、边缘生成对抗网络和内容生成对抗网络;所述边缘生成对抗网络包括边缘生成器G1和边缘鉴别器D1,所述内容生成对抗网络包括内容生成器G2和内容鉴别器D2
所述边缘生成器G1和内容生成器G2均包括若干卷积层、若干残差块和若干反卷积层,在所述反卷积层之间还包括一个多尺度内容注意力模块;所述多尺度内容注意力模块分别利用侧重提取图像风格特征的第一补丁和侧重提取图像基本特征的第二补丁,作为卷积滤波器来处理预生成的特征补丁,合并特征后输出;
所述多尺度内容注意力模块的具体实现包括:
利用侧重提取图像风格特征的3*3补丁和侧重提取图像基本特征的1*1补丁作为卷积滤波器提取背景特征;
利用欧式距离度量补丁的相似度得分d(x,y),(x',y')
采用核大小为k的自左向右,再自顶向下的进行注意力传播;
将生成的特征图和原始特征图连接起来;
利用逐像素卷积运算对所有特征图进行合并,将通道数减少到原始通道数;
所述将生成的特征图和原始特征图连接起来,用<gin,μgatt1*1,γgatt3*3>表示,其中μ和γ分别表示gatt1*1特征图和gatt3*3特征图的贡献权重;在所述边缘生成器G1中,预设μ>γ;所述内容生成器G2中,预设γ>μ。
2.根据权利要求1所述的基于多尺度内容注意力机制的图像修复方法,其特征在于:所述图像修复网络的训练包括以下子步骤:
获取残缺图样本
Figure FDA0003716280720000011
完整图样本Igt和遮罩图样本M;
将残缺图样本
Figure FDA0003716280720000012
输入至边缘检测模块中得到残缺图的边缘图
Figure FDA0003716280720000013
并将完整图样本输入至边缘检测模块中得到完整图的边缘图Cgt
将残缺图的边缘图
Figure FDA0003716280720000014
残缺图的灰度图
Figure FDA0003716280720000015
和遮罩图M输入至边缘生成对抗网络,得到边缘假想图Cpred
利用所述边缘假想图Cpred、遮罩图M、完整图的边缘图Cgt计算得到完整图的边缘假想图Ccomp=Cgt⊙(1-M)+Cpred⊙M,将所述完整图的边缘假想图Ccomp和残缺图样本
Figure FDA0003716280720000021
输入至内容生成对抗网络,得到内容修复图Ipred
利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算边缘生成对抗网络的损失,对边缘生成对抗网络进行更新;
利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred、残缺图的边缘图
Figure FDA0003716280720000022
非残缺区域的内容再次生成图
Figure FDA0003716280720000023
计算内容生成对抗网络的损失,对内容生成对抗网络进行更新。
3.根据权利要求2所述的基于多尺度内容注意力机制的图像修复方法,其特征在于:所述利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算边缘生成对抗网络的损失,包括:
利用边缘假想图Cpred、完整图的边缘图Cgt、完整图的灰度图Igray计算得到对抗性损失Ladv,1
利用边缘假想图Cpred、完整图的边缘图Cgt计算得到特征匹配损失LFM
利用对抗性损失Ladv,1和特征匹配损失LFM计算边缘生成对抗网络的损失。
4.根据权利要求2所述的基于多尺度内容注意力机制的图像修复方法,其特征在于:所述利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred、残缺图的边缘图
Figure FDA0003716280720000024
非残缺区域的内容再次生成图
Figure FDA0003716280720000025
计算内容生成对抗网络的损失,包括:
利用完整图样本Igt、完整图的边缘假想图Ccomp、内容修复图Ipred计算得到对抗性损失Ladv,2
利用完整图样本Igt、内容修复图Ipred计算得到感知损失Lperc
利用残缺图样本
Figure FDA0003716280720000026
非残缺区域的内容再次生成图
Figure FDA0003716280720000027
计算得到风格损失Lstyle
利用完整图的边缘假想图Ccomp、残缺图的边缘图
Figure FDA0003716280720000028
计算得到一致性损失Lcycle
利用对抗性损失Ladv,2、感知损失Lperc、风格损失Lstyle、一致性损失Lcycle和l1损失计算内容生成对抗网络的损失。
5.根据权利要求4所述的基于多尺度内容注意力机制的图像修复方法,其特征在于:所述内容鉴别器D2为多区域鉴别器,对抗性损失Ladv,2采用多区域鉴别器计算,所述多区域鉴别器包括多局部鉴别单元和全局鉴别单元,所述多局部鉴别单元通过单独处理多个特征图来检测图像中任意形状、区域的空洞修复结果,所述全局鉴别单元将整张图像作为作用域,用于判定整体风格的一致性修复结果;
所述多局部鉴别单元和全局鉴别单元均包括若干顺次连接的卷积层,在除最后一个卷积层以外的其他卷积层的后方连接有BN层和激活层;
对于全局鉴别单元,在最后一个卷积层后接入一个全连接层,将最后一个卷积层输出的特征处理为多通道的特征图,最后再通过一个全连接层和Sigmoid回归器判定全局图像的真假;
对于多局部鉴别单元,最后一层的全连接层使用不同的像素权重进行1×1卷积运算,并对最后层的每个像素采用单独的回归器判别其真假;
将全局鉴别单元和多局部鉴别单元得到的各输出值进行均值化处理,得到最终的判别结果。
6.根据权利要求1所述的基于多尺度内容注意力机制的图像修复方法,其特征在于:所述残差块为AdaIN残差块,所述AdaIN残差块包括:顺次连接的拓展卷积层、第一AdaIN函数模块、第一ReLU激活模块、卷积层、第二AdaIN函数模块、加法器和第二ReLU激活模块,所述加法器的第二输入端接入AdaIN残差块的输入特征。
7.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1至6中任一项所述的基于多尺度内容注意力机制的图像修复方法的步骤。
8.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至6中任一项所述的基于多尺度内容注意力机制的图像修复方法的步骤。
CN202110211937.3A 2021-02-25 2021-02-25 基于多尺度内容注意力机制的图像修复方法、存储介质和终端 Active CN112884669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110211937.3A CN112884669B (zh) 2021-02-25 2021-02-25 基于多尺度内容注意力机制的图像修复方法、存储介质和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110211937.3A CN112884669B (zh) 2021-02-25 2021-02-25 基于多尺度内容注意力机制的图像修复方法、存储介质和终端

Publications (2)

Publication Number Publication Date
CN112884669A CN112884669A (zh) 2021-06-01
CN112884669B true CN112884669B (zh) 2022-12-06

Family

ID=76054852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110211937.3A Active CN112884669B (zh) 2021-02-25 2021-02-25 基于多尺度内容注意力机制的图像修复方法、存储介质和终端

Country Status (1)

Country Link
CN (1) CN112884669B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674176B (zh) * 2021-08-23 2024-04-16 北京市商汤科技开发有限公司 图像修复方法及装置、电子设备和存储介质
CN114881864B (zh) * 2021-10-12 2023-01-03 北京九章云极科技有限公司 印章修复网络模型的训练方法及装置
KR102647652B1 (ko) * 2021-10-21 2024-03-15 고려대학교 산학협력단 두경부 이미지 구획화 방법 및 장치
CN116109523B (zh) * 2023-04-11 2023-06-30 深圳奥雅设计股份有限公司 一种智能设计的图像缺陷点自动修复方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3627379A1 (en) * 2018-09-24 2020-03-25 Siemens Aktiengesellschaft Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium
WO2020227971A1 (en) * 2019-05-15 2020-11-19 Microsoft Technology Licensing, Llc Image generation
CN110288537A (zh) * 2019-05-20 2019-09-27 湖南大学 基于自注意力的深度生成式对抗网络的人脸图像补全方法
CN111612711B (zh) * 2019-05-31 2023-06-09 北京理工大学 一种基于生成对抗网络改进的图片去模糊方法
CN110517352B (zh) * 2019-08-27 2022-06-03 电子科技大学 一种物体的三维重建方法、存储介质、终端及系统
CN111127346B (zh) * 2019-12-08 2023-09-05 复旦大学 基于部分到整体注意力机制的多层次图像修复方法
CN111047541B (zh) * 2019-12-30 2023-06-02 北京工业大学 一种基于小波变换注意力模型的图像修复方法
CN111553858B (zh) * 2020-04-28 2022-04-08 四川大学青岛研究院 基于生成对抗网络的图像修复方法、系统及其应用
CN111861901A (zh) * 2020-06-05 2020-10-30 西安工程大学 一种基于gan网络的边缘生成图像修复方法
CN111915522A (zh) * 2020-07-31 2020-11-10 天津中科智能识别产业技术研究院有限公司 一种基于注意力机制的图像修复方法

Also Published As

Publication number Publication date
CN112884669A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112884669B (zh) 基于多尺度内容注意力机制的图像修复方法、存储介质和终端
Li et al. An underwater image enhancement benchmark dataset and beyond
Zhou et al. UGIF-Net: An efficient fully guided information flow network for underwater image enhancement
CN110895795A (zh) 改进的语义图像修补模型方法
CN112581370A (zh) 人脸图像的超分辨率重建模型的训练及重建方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN113256494B (zh) 一种文本图像超分辨率方法
CN112801914A (zh) 一种基于纹理结构感知的二段式图像修复方法
CN113808031A (zh) 一种基于LSK-FNet模型的图像修复方法
CN111179196A (zh) 一种基于分而治之的多分辨率深度网络图像去高光方法
CN114444565A (zh) 一种图像篡改检测方法、终端设备及存储介质
Shahram et al. Recovering layers of brush strokes through statistical analysis of color and shape: an application to van Gogh's" Self portrait with grey felt hat"
CN113744142A (zh) 图像修复方法、电子设备及存储介质
CN114529742A (zh) 图像相似度确定方法、装置、设备及计算机可读存储介质
CN112348762A (zh) 一种基于多尺度融合生成对抗网络的单幅图像去雨方法
CN112330573A (zh) 基于人像的修图方法、装置、电子设备及存储介质
CN116051407A (zh) 一种图像修复方法
CN115526891A (zh) 一种缺陷数据集的生成模型的训练方法及相关装置
CN115018820A (zh) 基于纹理加强的乳腺癌多分类方法
CN115272527A (zh) 基于色盘对抗网络的图像上色方法
CN111461139B (zh) 一种复杂场景下的多目标视觉显著性分层检测方法
CN111882495B (zh) 一种基于自定义模糊逻辑与gan的图像高光处理方法
JP7469738B2 (ja) 学習済みの機械学習モデル、および、画像生成装置、機械学習モデルのトレーニング方法
CN113033645A (zh) Rgb-d图像的多尺度融合深度图像增强方法及装置
CN113744199A (zh) 图像的破损检测方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant