CN115115537A - 一种基于掩码训练的图像修复方法 - Google Patents
一种基于掩码训练的图像修复方法 Download PDFInfo
- Publication number
- CN115115537A CN115115537A CN202210523937.1A CN202210523937A CN115115537A CN 115115537 A CN115115537 A CN 115115537A CN 202210523937 A CN202210523937 A CN 202210523937A CN 115115537 A CN115115537 A CN 115115537A
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- training
- model
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008439 repair process Effects 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000009849 deactivation Effects 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007788 roughening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于掩码训练的图像修复方法,涉及计算机视觉技术领域,包括步骤:获取图像训练集中的训练样本;将训练样本输入至待训练的掩码生成模型中对所述训练样本提取特征,得到掩码生成模型输出的掩码结果;将所述掩码生成模型输出的掩码结果与训练样本相乘,得到损坏图像;得到所述图像修复模型的处理层输出的初始修复结果;将所述初始修复结果对应于损坏部分的子图像填充至损坏图像,作为中间修复结果;根据所述纹理特征和初始修复结果,得到该训练样本对的最终修复结果;本发明通过生成动态掩码,确认了图像的可预测区域,减少了对训练过程的损害,使得训练好的图像修复模型输出的修复结果与原始图像接近,保证了图像修复效果。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于掩码训练的图像修复方法。
背景技术
图像修复问题需要恢复图像中缺失区域的内容并生成视觉上逼真且语义上有意义的图像。它是计算机视觉中的一个重要研究课题,具有广泛的应用,例如去除照片中不需要的对象、图像重新定位、图像处理和隐私保护。
经典的图像修复方法通过从已知区域借用内容来填充缺失区域。它们通常无法为复杂场景产生语义上有意义的结果。随着深度卷积神经网络(CNN)的快速发展,最近的研究工作已转向数据驱动的基于学习的方法。对于图像修复,可以访问无限量的训练样本,因为它们可以通过使用现有的大规模图像数据集简单地破坏在随机位置具有孔的图像来获得。使用大型训练集,深度卷积神经网络可以学习根据部分图像和孔掩码来预测孔中的图像内容。与经典方法相比,基于深度学习的方法可以更好地处理具有复杂结构和对象的挑战性案例。
然而,现有的深度卷积神经网络中的随机数据合成策略假设所有图像区域都可以从上下文中预测出来,这并不总是成立。某些区域,是不可预测的。对于具有这种缺失区域的样本,真值通常会偏离估计结果。如果将这些样本包含在训练集中,这些样本可能会导致修复结果出现伪影。
发明内容
本发明提供一种基于掩码训练的图像修复方法,能够挖掘到图像的可预测区域来训练深度修复模型。不是在训练期间随机采样孔,而是与修复网络联合训练一个掩码生成模型,为每个训练样本动态生成孔掩码。通过在最大化掩码范数的同时最小化修复损失,掩码生成模型可以学习找到大但可预测的缺失区域,作为随机掩码的更好替代方案。解决了现有图像修复方法因图像部分区域无法从上下文中预测,而产生的修复结果出现伪影的问题。
为达到以上目的,本发明采取的技术方案是:
一种基于掩码训练的图像修复方法,所述修复方法包括如下步骤:
构建图像训练集,获取图像训练集中的训练样本;
构建图像修复模型和掩码生成模型;
将所述训练样本输入至待训练的掩码生成模型中对所述训练样本提取特征,得到掩码生成模型输出的掩码结果;
将所述掩码生成模型输出的掩码结果与训练样本相乘,得到损坏图像;
将所述损坏图像及掩码结果作为训练样本对,将所述损坏图像的原始图像作为训练样本对的标注;
将所述训练样本对输入至待训练的图像修复模型的粗糙阶段,得到所述图像修复模型的处理层输出的初始修复结果;
根据所述训练样本对,将所述初始修复结果对应于损坏部分的子图像填充至损坏图像,作为中间修复结果;
将所述中间修复结果输入至图像修复模型的细化阶段,得到该训练样本对的最终修复结果;
根据各训练样本对的最终修复结果及其标注得到损失值,根据损失值调整图像修复模型的模型参数得到训练后的掩码生成模型和图像修复模型;
根据所述训练后的图像修复模型,将测试样本对输入至训练后的图像修复模型中,得到测试样本对的修复结果。
进一步地,所述掩码生成模型的训练步骤如下:
给定训练样本为x、掩码为m和图像修复模型为G;
对修复结果进行最小化;
对掩码生成模型的输出掩码进行范数正则化,得到掩码生成模型的可预测区域挖掘损失,可预测区域挖掘损失LM的公式如下:
使用sigmoid函数将掩码生成模型的输出限制为[0,1];
在随机二进制掩码上使用带有掩码鉴别器的对抗性损失,使生成的掩码接近二进制。
进一步地,所述掩码生成模型与鉴别器组成掩码生成网络,所述鉴别器包括五层卷积层,所述鉴别器用于与掩码生成模型训练过程中进行对抗并判断输出的掩码是否符合已知随机生成掩码数据集和物体掩码分布,所述鉴别器的输入为掩码生成模型的输出结果。
进一步地,所述掩码生成模型采用全卷积神经网络结构,所述掩码生成模型包括预训练的ResNet50主干、中间核尺寸为3的卷积中间层、后接批归一化,整流线性单元,随机失活和Softmax函数。
进一步地,所述图像修复模型包括粗糙阶段和细化阶段,待修复图像先通过所述粗糙阶段得到粗糙的修复结果,再通过所述细化阶段对粗糙的修复结果进行纹理细化,所述图像修复模型卷积部分采用门控卷积,并经过逐像素L1损失和SN-patchGAN训练。
一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项基于掩码训练的图像修复方法。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项基于掩码训练的图像修复方法。
本发明的有益效果在于:
本发明通过提出训练一个以掩码生成模型输出的的可预测区域作为孔洞的图像修复模型,与修复网络联合训练一个掩码生成模型,为每个训练样本动态生成孔掩码。因此,掩码生成模型可以找到大而可预测的缺失区域,作为随机掩码的更好替代方案。通过将各损坏图像及其生成掩膜,作为各训练样本对输入图像修复模型的处理层,对各损坏图像的损坏部分进行修补,确定各初始修复结果。通过生成动态掩码,确认了图像的可预测区域,减少了对训练过程的损害,使得训练好的图像修复模型输出的修复结果与原始图像接近,保证了图像修复效果。
附图说明
为了更清楚的说明本发明的实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明系统框图。
图3为本发明最小化修复损失图。
图4为本发明掩码生成模型的具体结构图。
图5为本发明图像修复网络的粗糙阶段的具体结构图。
图6为本发明图像修复网络的细化阶段的具体结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
目前,在对图像进行修复时,通常通过使用现有的大规模图像数据集简单地破坏在随机位置具有孔的图像来获得网络输入进行训练,也就是用随机生成的掩码损坏图像,确定该损失部分对应的像素,然后将该掩码和损失图像输入修复网络,然而,随机数据合成策略假设所有图像区域都可以从上下文中预测出来,这并不总是成立。某些区域是不可预测的。对于具有这种缺失区域的样本,真值通常会偏离估计结果。
区别于现有技术中直接随机生成损害掩码,确定修复输入,本说明书提出一种新的图像修复方法,使得可基于图像的可预测部分进行修复训练,避免由于损坏部分不可预测导致修复结果较差的情况发生。
一种基于掩码训练的图像修复方法,如图1和图2所示,包括如下步骤:
构建图像训练集,获取图像训练集中的训练样本;
构建图像修复模型和掩码生成模型;
将所述训练样本输入至待训练的掩码生成模型中对所述训练样本提取特征,得到掩码生成模型输出的掩码结果;
将所述掩码生成模型输出的掩码结果与训练样本相乘,得到损坏图像;
将所述损坏图像及掩码结果作为训练样本对,将所述损坏图像的原始图像作为训练样本对的标注;
将所述训练样本对输入至待训练的图像修复模型的粗糙阶段,得到所述图像修复模型的处理层输出的初始修复结果;
根据所述训练样本对,将所述初始修复结果对应于损坏部分的子图像填充至损坏图像,作为中间修复结果;
将所述中间修复结果输入至图像修复模型的细化阶段,得到该训练样本对的最终修复结果;
根据各训练样本对的最终修复结果及其标注得到损失值,根据损失值调整图像修复模型的模型参数得到训练后的掩码生成模型和图像修复模型;
根据所述训练后的图像修复模型,将测试样本对输入至训练后的图像修复模型中,得到测试样本对的修复结果。
随机损坏生成的训练样本可能包含仅给定上下文无法重建的空洞,这可能会混淆训练过程,特别是对于动态可变形采样机制。为了克服这个问题,使用掩码生成模型G_M来生成对应于更可预测区域的孔。使用类似全卷积神经网络(FCN)的结构作为掩码生成模型,并带有预训练的ResNet50主干。
对于训练,给定原始图像、掩码和修复模型,通过将缺失区域中的生成器输出和已知区域中的原始图像组合生成修复结果。损失为修复结果与原始完整图像之间的L1距离和对抗生成网络(GAN)损失。因此,对于给定的图像和修复模型,损失取决于孔掩码。如果缺失的区域无法重建,损失会很大。因此,通过最小化修复损失来避免这些区域。此外,由于简单地最小化修复损失会导致所有元素都为零的平凡解,因此添加掩码范数正则化来避免这种情况,使其尽可能小。
图像修复是一项在缺失区域中合成替代内容的任务,以使修改在视觉上真实,语义上正确。它允许删除令人分心的对象或修饰照片中不需要的区域。它还可以扩展为包括裁剪、旋转、拼接、重新定位、重新合成、压缩、超分辨率、协调和许多其他功能。研究中,主要是对受到损坏的图像进行修复重建,同时保证图像修复后的效果。传统方法使用高斯滤波或者纹理合成的方法进行修复。前者仅考虑了破损区域边缘一周的图像颜色值,所以能处理的损坏区域小,后者是由外向内逐步修复图像,所以效率很差。基于深度学习的方法主要是利用GAN,先修复缺损的特征,之后将特征还原为修复图像。图像修复网络将输入图像和上述生成掩码一同作为修补网络的输入,对掩码区域进行补全。具体使用时,以f指代修复网络,网络输入为:RGB原图,二进制mask图。输入时按照RGB,mask的顺序级联,整体作为修复网络输入,网络输出结果取mask区域,与RGB原图相加,作为最终输出:
Output=RGB+mask×f(RGB,mask)
可挖掘区域生成
现有的基于深度学习的图像修复方法通过破坏随机区域的图像来生成训练数据,而不考虑缺失区域的可预测性,这将导致伪影。为了解决这个问题,训练一个用掩码生成模型输出的的可预测区域作为孔洞的修复模型。具体来说,与修复网络联合训练一个掩码生成模型,为每个训练样本动态生成孔掩码。因此,掩码生成模型可以找到大而可预测的缺失区域,作为随机掩码的更好替代方案。
从上式我们可以看到,对于给定的图像和修复模型,损失取决于孔掩码。如果缺失的区域无法重建,损失会很大。因此,可以通过最小化修复损失来避免这些区域,如图3所示。
此外,由于简单地最小化损失函数公式会导致所有元素都为零的平凡解,因此添加掩码范数正则化来避免这种情况。掩码生成模型的可预测区域挖掘损失LM如下:
我们使用sigmoid函数将掩码生成模型的输出限制为[0,1]。但是,在修复的典型用例中,掩码应该是二进制的。为了鼓励生成的掩码接近二进制,类似于Eqn.1和Eqn.2中图像的对抗性损失。在训练期间,以0.5的概率对生成的掩码进行随机二值化,然后通过修复模型以使修复模型同时适应软孔掩码和二进制孔掩码。
掩码生成网络的主体结构为生成式对抗网络,由掩码生成模型与鉴别器组成。生成器主要由Resnet50,以及中间核尺寸(kernel size)为3的卷积中间层,以及后接批归一化(Batch Normalization),整流线性单元(ReLU),随机失活(Dropout)以及Softmax函数组成,如图4所示。鉴别器用于与掩码生成模型网络在训练过程中进行对抗,由五层卷积层组成,最终判断输入的图像是否符合已知随机生成掩码数据集和物体掩码分布。鉴别器的输入为生成器最终的输出结果。虽然鉴别器并不参与后续的生成,但是鉴别器得到的对抗损失对于生成对抗网络的训练至关重要,鉴别器也是生成对抗网络中的对抗因素,能够让生成器得到更有效的结果。
图像修复
图像修复训练全程分为两部分:纹理补全与结构补全。图像修复的整体过程,先将待修复图像、待修复区域掩膜共同输入到网络中,将待修复图像与指示修复区域的掩膜(上述步骤生成)拼接后,作为网络输入。网络最终输出三通道RGB图像,为修复后的图像。
在后续的图像修复网络中,将网络输出的边缘与原图生成的边缘组合成完整的图像边缘信息,将其与输入图像和待修复区域掩膜一同作为图像修复网络的输入,用于对待修复区域进行补全。
图5和图6明了所提出的修复网络的整体架构,它由粗糙阶段(图5)和细化阶段(图6)组成。粗糙阶段旨在用粗略的结构填充孔洞。粗糙阶段生成器G0的解码器根据结构重构编码器的输出生成粗略的修复结果。细化阶段生成器G1旨在细化粗糙阶段结果的纹理,由标准卷积层和扩张卷积层组成。每个生成器Gi,i>0的解码器然后将两个编码器计算的连接特征解码为相应比例的RGB图像。
使用金字塔L1损失来逐步监督每个尺度上缺失区域的预测。具体而言,每个金字塔损失是特定尺度上的预测和相应的真值之间的归一化L1距离:
采用PatchGAN作为最细尺度的鉴别器,并在鉴别器中使用谱归一化来稳定训练。生成器的对抗性损失定义为:
Ladv=Ez,x~p(z,x)[ReLU(1-D(G(z)×m+z))]
鉴别器的对抗性损失定义为:
LD=Ex~pdata(x)[ReLU(1-D(x))]+Ez~pz(z)[ReLU(1+D(G(z)×m+z))]
其中,x表示真实图像,z表示孔内像素设置为零的不完整图像;m表示孔掩模,其中值为1的像素属于孔;G(·)表示整个生成器。pdata表示真实数据的分布,z~pz表示噪声的分布。
整个金字塔网络通过最小化对抗损失、金字塔L1损失来优化。我们将总体目标函数定义为:
LG=Lr+Ladv。
本说明书还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项基于掩码训练的图像修复方法。
本说明书还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项基于掩码训练的图像修复方法。
在本申请所提供的实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于掩码训练的图像修复方法,其特征在于,所述修复方法包括如下步骤:
构建图像训练集,获取图像训练集中的训练样本;
构建图像修复模型和掩码生成模型;
将所述训练样本输入至待训练的掩码生成模型中对所述训练样本提取特征,得到掩码生成模型输出的掩码结果;
将所述掩码生成模型输出的掩码结果与训练样本相乘,得到损坏图像;
将所述损坏图像及掩码结果作为训练样本对,将所述损坏图像的原始图像作为训练样本对的标注;
将所述训练样本对输入至待训练的图像修复模型的粗糙阶段,得到所述图像修复模型的处理层输出的初始修复结果;
根据所述训练样本对,将所述初始修复结果对应于损坏部分的子图像填充至损坏图像,作为中间修复结果;
将所述中间修复结果输入至图像修复模型的细化阶段,得到该训练样本对的最终修复结果;
根据各训练样本对的最终修复结果及其标注得到损失值,根据损失值调整图像修复模型的模型参数得到训练后的掩码生成模型和图像修复模型;
根据所述训练后的图像修复模型,将测试样本对输入至训练后的图像修复模型中,得到测试样本对的修复结果。
2.根据权利要求1所述的基于掩码训练的图像修复方法,其特征在于,所述掩码生成模型的训练步骤如下:
给定训练样本为x、掩码为m和图像修复模型为G;
对修复结果进行最小化;
对掩码生成模型的输出掩码进行范数正则化,得到掩码生成模型的可预测区域挖掘损失,可预测区域挖掘损失LM的公式如下:
使用sigmoid函数将掩码生成模型的输出限制为[0,1];
在随机二进制掩码上使用带有掩码鉴别器的对抗性损失,使生成的掩码接近二进制。
3.根据权利要求2所述的基于掩码训练的图像修复方法,其特征在于,所述掩码生成模型与鉴别器组成掩码生成网络,所述鉴别器包括五层卷积层,所述鉴别器用于与掩码生成模型训练过程中进行对抗并判断输出的掩码是否符合已知随机生成掩码数据集和物体掩码分布,所述鉴别器的输入为掩码生成模型的输出结果。
4.根据权利要求1所述的基于掩码训练的图像修复方法,其特征在于,所述掩码生成模型采用全卷积神经网络结构,所述掩码生成模型包括预训练的ResNet50主干、中间核尺寸为3的卷积中间层、后接批归一化,整流线性单元,随机失活和Softmax函数。
5.根据权利要求1所述的基于掩码训练的图像修复方法,其特征在于,所述图像修复模型包括粗糙阶段和细化阶段,待修复图像先通过所述粗糙阶段得到粗糙的修复结果,再通过所述细化阶段对粗糙的修复结果进行纹理细化,所述图像修复模型卷积部分采用门控卷积,并经过逐像素L1损失和SN-patchGAN训练。
6.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~5任一项所述的方法。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210523937.1A CN115115537B (zh) | 2022-05-13 | 2022-05-13 | 一种基于掩码训练的图像修复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210523937.1A CN115115537B (zh) | 2022-05-13 | 2022-05-13 | 一种基于掩码训练的图像修复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115115537A true CN115115537A (zh) | 2022-09-27 |
CN115115537B CN115115537B (zh) | 2024-05-28 |
Family
ID=83326366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210523937.1A Active CN115115537B (zh) | 2022-05-13 | 2022-05-13 | 一种基于掩码训练的图像修复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115115537B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418249A (zh) * | 2020-11-18 | 2021-02-26 | 北京字跳网络技术有限公司 | 掩膜图像生成方法、装置、电子设备和计算机可读介质 |
CN112507849A (zh) * | 2020-12-04 | 2021-03-16 | 东南大学 | 一种基于条件生成对抗网络的动态到静态场景转换方法 |
CN113808005A (zh) * | 2021-08-04 | 2021-12-17 | 西安深信科创信息技术有限公司 | 一种基于视频驱动的人脸姿态迁移方法及装置 |
CN113888415A (zh) * | 2021-09-07 | 2022-01-04 | 北京三快在线科技有限公司 | 一种模型训练以及图像修复方法及装置 |
US20220044365A1 (en) * | 2020-08-07 | 2022-02-10 | Adobe Inc. | Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network |
-
2022
- 2022-05-13 CN CN202210523937.1A patent/CN115115537B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220044365A1 (en) * | 2020-08-07 | 2022-02-10 | Adobe Inc. | Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network |
CN112418249A (zh) * | 2020-11-18 | 2021-02-26 | 北京字跳网络技术有限公司 | 掩膜图像生成方法、装置、电子设备和计算机可读介质 |
CN112507849A (zh) * | 2020-12-04 | 2021-03-16 | 东南大学 | 一种基于条件生成对抗网络的动态到静态场景转换方法 |
CN113808005A (zh) * | 2021-08-04 | 2021-12-17 | 西安深信科创信息技术有限公司 | 一种基于视频驱动的人脸姿态迁移方法及装置 |
CN113888415A (zh) * | 2021-09-07 | 2022-01-04 | 北京三快在线科技有限公司 | 一种模型训练以及图像修复方法及装置 |
Non-Patent Citations (2)
Title |
---|
TAO YU ET AL.: "Region Normalization for Image Inpainting", 《THE THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-20)》, 31 December 2020 (2020-12-31), pages 12733 - 12740 * |
冯浪 等: "基于扩张卷积的图像修复", 《计算机应用》, vol. 40, no. 3, 10 March 2020 (2020-03-10), pages 825 - 831 * |
Also Published As
Publication number | Publication date |
---|---|
CN115115537B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yeh et al. | Multi-scale deep residual learning-based single image haze removal via image decomposition | |
Dong et al. | Deep spatial–spectral representation learning for hyperspectral image denoising | |
Xu et al. | Image inpainting by patch propagation using patch sparsity | |
CN112614136B (zh) | 一种红外小目标实时实例分割方法及装置 | |
Panetta et al. | Tmo-net: A parameter-free tone mapping operator using generative adversarial network, and performance benchmarking on large scale hdr dataset | |
CN110675339A (zh) | 基于边缘修复和内容修复的图像修复方法及系统 | |
CN110148088B (zh) | 图像处理方法、图像去雨方法、装置、终端及介质 | |
Zuo et al. | Convolutional neural networks for image denoising and restoration | |
Wang et al. | MAGAN: Unsupervised low-light image enhancement guided by mixed-attention | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
CN112288632A (zh) | 基于精简esrgan的单图像超分辨率方法及系统 | |
CN115393191A (zh) | 一种轻量级遥感图像超分辨率重建方法、装置及设备 | |
Chaurasiya et al. | Deep dilated CNN based image denoising | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN109993701B (zh) | 一种基于金字塔结构的深度图超分辨率重建的方法 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN114202460A (zh) | 面对不同损伤图像的超分辨率高清重建方法和系统及设备 | |
Zhang et al. | Enhanced visual perception for underwater images based on multistage generative adversarial network | |
CN113962905A (zh) | 基于多阶段特征互补网络的单幅图像去雨方法 | |
CN112927137A (zh) | 一种用于获取盲超分辨率图像的方法、设备及存储介质 | |
CN115358952B (zh) | 一种基于元学习的图像增强方法、系统、设备和存储介质 | |
CN117078505A (zh) | 一种基于结构线提取的图像卡通化方法 | |
CN116051407A (zh) | 一种图像修复方法 | |
Van Noord et al. | Light-weight pixel context encoders for image inpainting | |
CN115115537B (zh) | 一种基于掩码训练的图像修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |