CN112712472A - 图像处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

图像处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112712472A
CN112712472A CN202010687655.6A CN202010687655A CN112712472A CN 112712472 A CN112712472 A CN 112712472A CN 202010687655 A CN202010687655 A CN 202010687655A CN 112712472 A CN112712472 A CN 112712472A
Authority
CN
China
Prior art keywords
image
convolution
feature map
processed
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010687655.6A
Other languages
English (en)
Inventor
白猛猛
左力
宋先松
罗在根
王长威
张卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecom R&D Center
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Publication of CN112712472A publication Critical patent/CN112712472A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例提供了一种图像处理方法、装置、电子设备及计算机可读存储介质,属于图像处理及人工智能技术领域。该方法包括:获取包含待移除目标区域的待处理图像;生成待处理图像的遮罩图像;根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像。基于本申请实施例所提供的图像处理方法,能够有效提高提高图像修复效果。

Description

图像处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及图像处理及人工智能技术领域,具体而言,本申请涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。
背景技术
图像目标移除技术可以将图像中的物体,人或者其他目标自动移除,并使用背景信息进行填补。例如,当用户拍摄图像时,图像背景中存在某些目标,用户可以通过使用图像目标移除技术将该目标从背景中移除,如将除用户本人外的其他人从图像中移除,再例如,用户还可以通过目标移除技术将用户人脸图像中脸上的“斑”、“痣”等目标从人脸图像上移除。
图像目标移除技术主要基于图像修复技术。通过将待移除的区域作为图像丢失区域,使用图像修复技术利用背景信息修复该丢失的区域,完成图像的目标移除。现有的图像修复技术主要可以分为两大类:基于传统的图像处理方法和基于学习的处理方法,但是目前已有的图像修复方案的修复效果均不够理想,均有待改善。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是图像修复效果不够理想的技术缺陷。为了实现本申请的目的,本申请所提供的技术方案如下:
第一方面,本申请实施例提供了一种图像处理方法,该方法包括:
获取包含待移除目标区域的待处理图像;
生成待处理图像的遮罩图像;
根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像。
第二方面,本申请实施例提供了一种图像处理装置,该装置包括:
图像获取模块,用于获取包含待移除目标区域的待处理图像;
遮罩图像生成模块,用于生成待处理图像的遮罩图像;
图像修复模块,用于根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括存储器和处理器;其中,存储器中存储有计算机程序;处理器用于在运行计算机程序时执行本申请第一方面所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该存储介质上用于存储计算机程序,该计算机程序在被处理器执行时用于执行本申请第一方面所提供的方法。
本申请所提供的技术方案的有益效果将在下文的具体实施方式中,结合具体实施例进行详细描述,在此不再描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1示出了基于现有传统的U-net结构进行图像修复的原理示意图;
图2示出了基于现有基于部分卷积的U-net结构进行图像修复的原理示意图;
图3示出了基于现有的基于门卷积的U-net结构进行图像修复的原理示意图;
图4示出了基于现有的门卷积结构进行融合了遮罩图信息的特征图提取的原理示意图;
图5示出了本申请实施例提供的一种图像处理方法的流程示意图;
图6示出了本申请示例中提供的一种基于语义信息进行图像裁剪的流程示意图;
图7示出了本申请示例中提供的一种基于语义信息进行图像裁剪的原理示意图;
图8a示出了本申请示例中提供的一种进行超分辨率处理的流程示意图;
图8b示出了本申请示例提供的一种图像预处理方法的流程示意图;
图9a示出了普通卷积机制的原理示意图;
图9b示出了空洞卷积机制的原理示意图;
图10a示出了本申请实施例提供的深度门卷积结构进行特征图提取的原理示意图;
图10b示出了本申请一示例中提供的一种深度门卷积结构的示意图;
图10c示出了本申请实施例提供的采用空洞门卷积机制的深度门卷积结构进行特征图提取的原理示意图;
图10c1示出了本申请一示例提供的基于差分卷积进行特征图提取的原理示意图;
图10c2和图10c3分别示出了本申请示例中提供的两种差分卷积结构的结构示意图;
图10d示出了本申请一示例中提供的一种图像处理方法的原理示意图;
图10e示出了图10d中对待移除目标区域进行初步修复后的修复结果的放大示意图;
图10f示出了本申请一示例中提供的一种对目标图中的元素值进行随机调整的方案的原理示意图;
图10g(1)为现有卷积计算的原理示意图;
图10g(2)和图10g(3)分别为现有卷积计算示意图和本申请一示例提供的卷积计算示意图;
图11示出了本申请实施例提供的一种图像处理方法的流程示意图;
图12示出了本申请一实施例提供的图像修复网络的结构示意图;
图13示出了本申请另一实施例提供的图像修复网络的结构示意图;
图14示出了本申请又一实施例中提供的图像修复网络的结构示意图;
图15a示出了本申请一示例中待处理的原始图像;
图15b示出了对图15a中的图像进行预处理后的图像;
图15c、图15d和图15e分别示出了基于现有门卷积、现有部分卷积和本申请实施例所提供的深度门卷积机制,对图15a中的原始图像进行目标移除后的结果示意图;
图16a示出了本申请另一示例中待处理的原始图像;
图16b示出了对图16a中的图像进行预处理后的图像;
图16c、图16d和图16e分别示出了基于现有门卷积、现有部分卷积和本申请实施例所提供的深度门卷积机制,对图16a中的原始图像进行目标移除后的结果示意图;
图17a示出了本申请一示例中提供的一种对图像修复网络进行训练的方案的原理示意图;
图17b示出了本申请一示例中提供的一种对图像修复网络进行训练的流程示意图;
图18示出了本申请实施例提供的一种图像处理装置的结构示意图;
图19为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
图像目标移除技术主要基于图像修复技术实现的,目前,现有的图像修复技术主要可以分为两大类:基于传统的图像处理方法和基于学习的处理方法。
在图像修复领域典型的传统图像修复技术为PatchMatch(区域匹配) 算法,该算法是一种可以在两幅图像中快速有效地寻找到两个高相似度区域的算法。基于PatchMatch算法可以从图像中非丢失区域寻找到与丢失区域(即待移除区域)相似的图像区域,然后将该图像区域填充到丢失区域,从而实现图像的修复。
基于学习的方法主要基于深度学习网络以及生成式对抗网络实现图像的修复。该方法在用户在原图(待处理图像)中选择待移除目标区域(也可以称为待移除物体区域)之后,根据用户选择的待移除目标区域,将原图中对应该区域的像素值设为0,并将预处理后的图像的像素值由(0,255) 归一化到(-1,1),之后把预处理后的图像输入至图像修复网络,由图像修复网络使用已训练好的权重参数进行推理,重建图像待移除目标区域,输出修复结果,完成目标移除。
现有的基于学习方法的图像修复技术主要是基于U-net(U型网络) 结构实现的,并通过在其基础上使用特殊的针对图像修复的卷积操作,实现图像的修复。
图1中示出了现有U-net结构的示意图,如图1中所示,U-net结构包含编码阶段和解码阶段两部分,编码阶段主要用于提取预处理后的图像即待处理图像的特征图,具体可以获取预处理后的图像的高层以及底层语义等信息。解码阶段则根据编码阶段获得的信息,进行上采样计算得到修复的图像。如图像修复任务,U-net编码阶段对图像进行特征提取,解码阶段利用已获得的图像特征进行上采样,由特征图得到人可理解的一般图像,输出图像修复的结果。具体的,用户在待处理的原图中选择待移除目标区域之后,从原图中删除待移除目标区域的像素值(即待移除区域的像素值为0),得到预处理后的图像,如果预处理后的图像的大小不满足网络要求的输入图像大小,则可以将预处理后的图像缩放至网络要求的输入图像大小,编码部分(Encoder)则对该输入图像进行特征提取,解码部分(Decoder)则根据编码部分所提取的特征,通过使用如反卷积或者基于双线性的图像缩放操作等实现上采样操作,修复图像中待移除目标区域,从而实现图像的目标移除。
其中,为了有效地减少图像传递过程中信息的丢失,传统的U-net会在编码部分和解码部分相同维度的特征图之间添加链接,该链接可以为卷积运算,也就是说,相同维度的编解码层之间进行卷积运算,确保传入解码部分的数据,除了提取出的高维特征外,还有原图像的低维特征。
传统的U-net仅使用一般的卷积操作,未使用专门针对图像修复的一些特殊的卷积操作,随着专门针对图像修复问题的各种特殊卷积的出现,在传统的U-net结构基础上提出了改进的U-net结构,如基于部分卷积(Partial Conv)的U-net和基于门卷积(GateConv)的U-net。
图2中示出了一种采用部分卷积的U-net,如图中所示,该图像修复网络的输入为删除了待移除目标区域像素值的预处理后的图像和与预处理后的图像对应的遮罩图像。遮罩图像的像素值只包含0和1,遮罩图像与预处理后的图像的像素大小一致,其中对应待移除目标区域的像素值为0,其余区域的像素值为1。图像修复网络根据遮罩图像使用部分卷积操作,仅对预处理后的图像的某些区域进行卷积计算,即提取其特征图,而对不满足规则要求的预处理后的图像区域不进行卷积运算。是否对预处理后的图像的某些区域进行卷积运算取决于遮罩图像,基于部分卷积的该U-net,是基于一种自定义好的遮罩图像更新规则进行遮罩图像的更新,同传统的U-net网络结构相比,基于部分卷积的U-net,将传统的U-net中的一般卷积操作换成部分卷积操作,输入的数据必须包含其对应的遮罩图像,以及遮罩图像的更新规则。
门卷积是在部分卷积基础上提出的另一种针对图像修复的特殊卷积。。图3中示出了一种基于门卷积的U-net结构,与图1和图2中所示的结构相比,基于门卷积的U-net结构是将传统U-net结构中的一般卷积都换成了门卷积,网络的输入仍然是预处理后的图像和对应的遮罩图像。与部分卷积相比,门卷积使用的学习的方法,将用户自定义好的遮罩图像更新规则,改为了一种基于学习方法获得的更新规则。基于门卷积的该U-net结构在进行图像修复时的数据处理流程大致可以包括:
1)输入预处理后的图像和对应的遮罩图像。
2)在U-net编码部分,门卷积在提取输入的数据特征同时也进行遮罩图像的更新,并将更新后的遮罩图像与提取出的图像特征融合到一起,输入到下一层的门卷积,直到编码部分结束。
3)根据编码部分输出的融合了遮罩图像和特征图的数据,解码部分在采用上采样操作后,再次使用门卷积,对上采样的后的数据进行特征图提取和遮罩图像的更新,并输出融合了遮罩图像和特征图的数据,用于下一层的上采样运算。
4)重复3)直到U-net网络前向推理结束。
基于门卷积的U-net结构中,门卷积操作部分包含两个分支卷积操作:即特征提取分支和遮罩图更新分支,特征图提取分支主要用于提取输入数据的特征,另一个分支则根据输入的数据更新遮罩图,最后将两个分支的结果进行逐个像素点点乘。
图4中示出了图3中某一层门卷积进行特征提取及遮罩图更新的原理示意图,其中,数据的处理流程自下而上。对于第一层门卷积,其输入为待处理图像(图中所示的图像)和待处理图像对应的遮罩图像(图中所示的遮罩图),该层门卷积基于遮罩图像和待处理图像,提取得到第一层级的融合特征图,第一层门卷积之后的各层门卷积,其输入则为上一层门卷积输出的融合了遮罩图信息的特征图。
如图4中所示,融合了遮罩图信息的特征图(Input feature maps,图中所示的各特征图分别代表不同通道的特征图数据)输入至门卷积结构中,特征图提取分支用于提取输入数据的特征图,输入的特征图经过特征图提取分支①得到新的特征图。分支①使用一般的卷积操作实现,其后可以加任意一种的激活函数(如leaky ReLu(带泄露修正线性单元)和tanh(双曲正切)激活函数)等,输出提取的特征图。更新遮罩图分支(分支②)同样使用一般的卷积进行运算,但其卷积后加的激活函数为sigmoid,即输出值范围为[0,1]。通过将该分支的输出值范围设置为部分卷积的遮罩图取值范围,使得卷积操作能在训练的时候学习到遮罩图的更新规则,更加合理地更新遮罩图。之后将两个分支的结果进行逐个像素点点乘,输出最终的特征图(Output feature maps,对应图中的融合遮罩图信息的特征图)。
虽然现有的各图像修复技术都能够实现图像中待移除目标区域的修复,但是本申请的发明人发现现有的各技术中至少还存在以下需要改善的地方:
1、对于基于传统的图像处理方法的图像修复方案
首先该方案的图像处理方法不具有学习性,而仅使用简单的图像像素点之间的距离作为相似性判断标准,会导致其缺乏语义信息的对比,从而出现修补的区域语义信息不合理的情况。此外,PatchMatch需要根据待移除目标区域的大小生成边界框,进行滑窗扫描修复,当待移除目标区域大时,生成的边界框亦大,滑窗需要滑动的区域也变大,进而增加了数据的处理时间。如果为了减少滑窗滑动的次数,需要增大滑窗的大小,但这使得计算滑窗大小的待填补区域与图像中用于填补的滑窗大小的区域之间的距离计算量增加。这使得图像修复时间同待移除目标区域的面积成正比,面积越大算法的耗时越长。
2、对于基于学习的方法的图像修复方案
由前文描述可知,U-net结构是目前图像修复网络的基本网络架构,大部分的图像修复网络都是基于此网络架构设计。然而,U-net仅使用一般卷积,当图像中丢失区域面积较大时,一般的卷积下采样使得获得的丢失区域的对应的特征图值为0。由于一般的卷积下采样不能够获取到足够大的感受野信息,导致图像上采样修复结果差,在修复后的图像中很可能出现很多人工修复的痕迹,以及一部分未修复的区域。另外,U-net的输入受限制于计算负载,所以如果输入的图像像素很高,则需要的计算开销也就很高,处理的时间开销大。因此,为了使处理速度在可接受的范围内,当直接使用U-net修复图像时,需将图像由高清图像缩放到低像素尺寸的图像,输入该低像素的图像到U-net中,进行图像修复,这导致修复出的图像结果像素低,修复效果较差。
对于改进的U-net结构,如基于部分卷积的U-net,其采用人为设定的固定的遮罩图更新规则,使得网络对于不同通道的特征数据,均根据唯一更新后的遮罩图去选择性的提取特征图,导致特征图提取不合理,则会使网络上采样结果出现“鱼鳞现象”。另外,基于人工定义的遮罩图更新规则,缺少自适应机制,若遮罩图更新规则定义的不合理,想要提升网络修复的性能,则需要通过加大网络的深度和宽度提升修复的效果,但与此同时网络的模型大小也会随着增大。
基于门卷积的U-net,虽然其使用学习的方式去学习遮罩图的更新规则,然而门卷积在使用卷积操作实现遮罩图更新的过程中,其遮罩图更新分支更新的每一张遮罩图,都需要根据前一层输出的所有特征图数据,该方式使用了大量的数据,导致遮罩图更新分支存在大量冗余卷积操作,影响了卷积核学习遮罩图更新规则,使得门卷积在根据遮罩图进行特征提取时,不能很好的学习到哪部分特征需要提取哪部分特征不需要提取,因此该机制存在两方面问题:一方面增加了一些不必要的卷积运算,另一方面过多冗余的数据输入不利于训练卷积核权重,影响网络学习遮罩图更新规则,亦会使得最终修复结果出现“鱼鳞现象”。
为了解决现有图像修复技术中所存在的上述技术问题中的至少一个,本申请实施例提供了一种图像处理方法。为使本申请的目的、技术方案和优点更加清楚,下面首先对本申请涉及的几个名词进行介绍和解释:
待处理图像:需要进行目标区域移除的图像,图像中需要移除的目标所在的区域可称为待移除目标区域。
待处理图像的遮罩图像:与待处理图像的图像大小一致,也就是像素数量一致,遮罩图像中对应待移除目标区域的像素值为0,其余区域的像素值为1。
RPN(Region Proposal Network,候选区域生成网络):该网络用于生成输入图像或输入特征图中的候选框即候选区域,该网络的输出通常包含两个分支,一个分支是候选区域作为目标和非目标的概率(表示一个区域是否可以作为候选区域的概率),另一支是候选区域的四个参数,这四个参数通常是指区域的中心坐标、以及区域的宽和高。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图5示出了本申请实施例提供的一种图像处理方法的流程示意图,如图中所示,该方法主要可以包括以下几个步骤:
步骤S110:获取包含待移除目标区域的待处理图像;
其中,待移除目标区域是指用户所选中的需要移除并对其进行修复的图像区域。可选的,用户可以在图像修复软件中打开需要进行移除处理的图像,并通过软件的区域选择工具选择需要进行移除的区域,此时用户所选择的区域即为待移除目标区域。
步骤S120:生成待处理图像的遮罩图像;
步骤S130:根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像。
本申请实施例中,待处理图像可以是需要进行目标移除的原始图像,也可以是对原始图像进行预处理后的图像。在实际应用中,用户是在原始图像中选择待移除目标区域之后,可以基于所选中的目标区域对原始图像进行预处理,如对原始图像进行裁剪,得到包含待处理目标区域的待处理图像,或者还可以对原始图像或者裁剪后的图像中的待移除目标区域进行进一步处理,得到待处理图像,如将待移除目标区域的像素值设置为0。
本申请的可选实施例中,步骤S110中,获取包含待移除目标区域的待处理图像,可以包括:
获取包含待移除目标区域的原始图像;
提取原始图像的图像特征;
基于原始图像的图像特征,对原始图像进行裁剪,得到包含待移除目标区域的待处理图像。
在实际应用中,如果原始图像的像素很高,即原始图像的分辨率很高,在基于原始图像进行图像修复时,所需要的计算开销也会很高,导致处理的时间开销很大,也就是说处理高清图像的时间成本会很高。而如果只是简单的将高清图像缩放到低像素尺寸的图像进行处理,则会导致修复后的图像中像素较低,图像修复效果较差。另外,在待修复图像区域的面积较大时,现有的图像修复方案中,在基于原始图像进行图像修复时,则会导致修复中出现很多人工修复的痕迹、以及部分区域无法修复的问题。
针对现有技术中存在的上述问题,本申请实施例提供的该方案,在进行图像修复前,根据原始图像的图像特征对原始图像进行裁剪,实现了基于图像的语义信息的图像裁剪,后续基于裁剪后的图像进行图像中待移除区域的修复。基于该方案,由于是基于裁剪后的图像进行的图像修复,因此可以解决在处理高清图像时处理速度慢的问题,而该裁剪是基于图像语义信息的裁剪,并非是直接对原始图像进行缩放,在保证了待处理图像部分的高像素的前提时,能够使得裁剪后得到的待处理图像部分尽可能多的包含可用于待修复待移除目标区域的信息,即尽可能多的保留了原始图像中可以用于图像修复的有用信息,从而能够保证图像的修复效果。
通过该方案,使得对原始图像的处理转变为对其局部区域的处理,且能够尽可能多的保留原始图像的像素信息。在待移除目标区域较小时,该方案可基本完全保留原始图像的像素信息,在待移除目标区域较大时,丢失的原图像信息也相对有限,因此,能够保证待移除目标区域的修复效果。在通过图像修复模型进行图像修复处理时,通过该方案可有效降低模型输入的像素大小,又尽可能多的保留了有用信息。
需要说明的是,本申请实施例提供的该方案中,原始图像可以是高清图像,即图像分辨率大于一定分辨率的图像,如分辨率大于1024*1024像素的图像,也可以是非高清图像。也就是说,本申请实施例所提供的该图像裁剪方案适用于所有类型的图像。
本申请的可选实施例中,基于原始图像的图像特征,对原始图像进行裁剪,得到包含待移除目标区域的待处理图像,包括:
基于原始图像的图像特征,确定原始图像中包含待移除目标区域的各候选区域;
从各候选区域中筛选出目标区域;
根据筛选出的目标区域对原始图像进行裁剪,得到包含待移除目标区域的待处理图像。
作为一可选方案,该方案可以基于待移除目标区域和原始图像的图像特征,首先得到多个候选区域,再进一步基于该图像特征,从多个候选区域中筛选出目标区域,基于该目标区域对原始图像进行裁剪,得到待处理图像。由于各候选区域也是基于图像特征从原始图像中确定出的,因此各候选区域中均包含了较多的原始图像中的图像信息,在该基础上,再基于原始图像的图像特征从多个候选区域中进行进一步的筛选,从而得到最合理的目标区域,也就是从均包含了较多的原始图像信息的候选区域中筛选出保留了最多原始图像信息的目标区域,从而基于该目标区域裁剪出最优的待处理图像部分。
可选的,基于待移除目标区域和原始图像的图像特征,确定原始图像中包含待移除目标区域的各候选区域,可以通过神经网络实现,如可以通过RPN 实现。
本申请的可选实施例中,基于原始图像的图像特征,确定各候选区域,可以包括:
确定待移除目标区域的区域大小;
若区域大小不大于设定阈值,则根据原始图像的图像特征、以及待移除目标区域在原始图像中的位置信息,得到第一设定区域大小的各候选区域;
若区域大小大于设定阈值,则根据原始图像的图像特征、以及待移除目标区域在原始图像中的位置信息,得到第二设定区域大小的各候选区域。
其中,待移除目标区域的区域大小是指待移除目标区域的面积。在实际图像处理时,用户所选择的待移除目标区域通常是不规则的区域,在进行图像处理时,待移除目标区域的大小具体可以为待移除目标区域的最小外接矩形的大小。
本申请提供的该方案,能够根据待移除目标区域的区域大小来执行图像裁剪的方案,以保证裁剪得到的待处理图像在包含待移除目标区域的同时,还能够包含更多的用于该区域修复的其他图像信息。基于该方案,可以有效避免由于不考虑待移除目标区域的实际大小,导致裁剪后的图像中所包含的用于该目标区域修复的图像信息过少,导致后续图像修复效果差的问题。
其中,上述第一设定区域大小和第二设定区域大小均可以根据实际应用需求配置。可选的,第二设定区域大小可以是基于第一设定区域大小确定的,上述设定阈值也可以是基于第一设定区域大小确定的,也可以基于经验值设定的。第一设定区域大小可以是后续图像修复网络所要求的输入图像的大小。第一设定区域大小与第二设定区域大小的大小关系不做限定,即第二设定区域大小可以小于第一设定区域大小,第二设定区域大小也可以大于第一设定区域大小。作为一可选方案,为了使获取到的待处理图像包含尽可能多的原始图像的信息,第二设定区域大小大于第一设定区域大小。
本申请的可选实施例中,若筛选出的目标区域为第二设定区域大小的候选区域,根据筛选出的目标区域对原始图像进行裁剪,得到待处理图像,包括:
根据筛选出的目标区域对原始图像进行裁剪,得到第二设定区域大小的裁剪图像;
按照第一设定区域大小对裁剪图像进行缩放,得到包含待移除目标区域的待处理图像。
由于图像的修复可以是通常图像修复模型实现,为了使模型的输入图像大小一致,在得到第二设定区域大小的待处理图像时,可以通过缩放将第二设定区域大小的待处理图像缩放至第一设定区域大小。也就是说,模型的输入图像大小可以为第一设定区域大小。在第二设定区域大小大于第一设定区域大小时,通过该方案,在待移除目标区域的区域较大时,可以进一步减少待处理图像的像素大小,减少模型的数据处理量,提高模型的图像处理效率。
本申请的可选实施例中,如果对裁剪图像进行了上述缩放处理,在得到修复后的图像之后,该方法还包括:
基于上述对裁剪图像进行缩放时的缩放比例,对修复后的图像进行相应的缩放处理,得到第二设定区域大小的修复后的图像;
将经过缩放处理后的修复后的图像与原始图像进行融合处理,得到原始图像对应的修复后的图像。
在实际应用中,如果待处理图像是在裁剪后的图像的基础上进行了缩放处理(第一缩放处理)的图像,在完成对待处理图像中待移除目标区域的修复后,为了将该修复后的图像与原始图像进行融合,以得到原始图像所对应的修复后的图像,需要基于缩放处理的缩放比例再次进行相应的缩放处理(第二缩放处理),以将修复后的图像的大小处理至第一缩放处理前的大小。具体的,若第二设定区域大小大于第一设定区域大小,则第一缩放处理为缩小处理,第二缩放处理为放大处理,相反的,若第二设定区域大小小于第一设定区域大小,则第一缩放处理为放大处理,第二缩放处理为缩小处理。可选的,在第二设定区域大小小于第一设定区域大小时,第二缩放处理具体可以为超分辨率处理,通过超分辨处理将修复后的图像恢复至缩放前的图像大小。
在得到经过缩放处理后的修复后的图像即经过第二缩放处理后的图像之后,将该缩放处理后的图像与原始图像进行融合处理,得到原始图像对应的修复后的图像的具体方式本申请示例不作限定,例如,可以将经过第二缩放处理后的图像与原始图像中除待处理图像部分以外的其他图像部分拼接,得到原始图像对应的修复后的图像,还可以在拼接时对需要拼接的这两部分的拼接边缘进行一些预处理,以使拼接边缘更加平滑自然。
为了更好的说明及理解本申请所提供的上述基于语义信息的图像裁剪方案,下面结合具体一示例对该图像裁剪方案进行进一步详细的说明。
本示例中,原始图像为高清图像(如分辨率大于1024*1024像素的图像),第一设定区域大小为n*n像素,第二设定区域大小为m*m像素,设定阈值为第一设定区域大小的k倍,其中,k<1。具体的,本示例中,原始图像为 2048*2048像素的图像,n=512,k=0.3,
Figure BDA0002588162650000141
也就是说,设定阈值所对应的图像面积为裁剪后得到的待处理图像的面积的0.3倍。
现有的基于深度学习的算法难以快速的处理高清的图像,如果直接输入原始的高清图像到图像修复网络,将需要非常大的计算资源,会使得模型的推理过程耗时增大,这使得现有深度学习的算法对于高清图像物体移除的处理速度很慢。为了能够快速运行深度学习的算法处理高清图像,可以根据待移除区域对原始图像进行裁剪,从原始图像中剪裁出与丢失部分(待移除目标区域)相似的区域,将其作为输入图像输入至图像修复网络,而无需将整幅原始图像输入到图像修复网络,即用裁剪后的图像进行图像目标移除。
本示例中,具体可以将高清的2048*2048像素的图像,根据其待移除区域裁剪出512*512像素的图像,然后在该图像上进行图像目标移除。图6和图7中示出了本示例中所提供的基于语义信息的图像裁剪方法的流程示意图,本示例中,基于原始图像的图像特征确定各候选矩形区域、以及从各候选区域中筛选出目标区域,具体可以通过Faster-RCNN(Regions with Convolutional Neural Network,基于区域的快速卷积神经网络)实现,本示例中,如图7中所示,该Faster-RCNN主要包括RPN和分类网络两部分。如图中所示,本示例中的该裁剪方法主要流程如下:
用户在高清图像(即原始图像,图中所示的原图像)上绘制出待移除目标的区域即待移除目标区域(对应图6中用户选择欲删除的目标),待移除目标也可以称为欲删除目标或者目标区域,之后可以先对高清图像中的待移除目标的区域进行预处理,如将待移除目标区域的像素值调整为0,得到预处理后的图像(图7中所示的删除了待移除目标区域像素值的原图)。
其中,在提取高清图像的图像特征时,该图像特征可以是基于预处理前的高清图像提取得到的,也可以是基于预处理后的高清图像提取得到的,还可以是对预处理前或预处理后的高清图像进行缩放处理后,基于缩放后的图像提取得到的。即将高清图像缩放至低像素图像后,再进行特征提取,如可以将2048*2048像素的图像缩放为512*512。其中,图像特征的提取具体可以通过神经网络实现,如可以用mobile-net提取该图像的特征图(也可以称为图像特征),并输入到RPN中。
为了确定待移除目标区域的区域大小,也就是待移除目标区域的面积,可以根据待移除目标区域的外接最小矩形,找出待移除目标区域的中心点,即外接最小矩阵的中心点坐标(x,y),输入到RPN中,对应图6中的输入欲删除目标的中心点坐标(x,y)到RPN,对应图7中的“计算目标区域的中心点(x,y),并将其输入RPN”,还可以进一步计算待移除目标区域的面积 N,并基于待移除目标区域的面积确定各候选区域的尺寸,也就是各候选矩形框的尺寸,对应图6中所示的根据目标区域的面积确定裁剪区域的尺寸,将该尺寸也输入RPN,以使RPN能够基于上述提取的图像特征(也就是原始图像的特征图)、待移除目标区域的中心点坐标(x,y)以及候选区域的尺寸,生成多个包含待移除目标区域的候选区域。
RPN可以根据不同的待移除目标区域的面积的不同生成不同大小的候选区域框(RPN实质上生成的是候选区域框(也可以称为候选区域矩形框、候选框),即输出的是候选区域框的中心点坐标、长和宽等参数信息),一个候选区域框即对应一个候选区域,具体的,RPN可以根据所输入的候选区域的尺寸,以(x,y)点开始生成候选区域框。具体的,若待移除目标区域的面积不大于k倍的输入图像(该输入图像是对于图像修复网络而言的,即裁剪后得到的待处理图像)的面积,如本示例中输入图像面积为512*512,k为 0.3,若待移除目标区域的面积为512*512*0.2,该面积小于512*512*0.3,则此时候选区域的尺寸即为512*512,RPN则在能覆盖到待移除区域外接最小矩形的区域内,即随机生成候选区域矩形框大小为512*512的候选区域,对应图7中RPN之后位于上方的分支所对应的图像中的各虚线框即为各候选矩形框,其中的圆圈对应于待移除目标区域的中心点坐标。如果待移除目标区域的面积大于k倍的输入图像,本示例中可以通过公式
Figure BDA0002588162650000161
确定出候选框的边长m(可以理解的是m个像素),具体的
Figure BDA0002588162650000162
其中,m*m为RPN生成候选区域的矩形框大小,n为原始图像缩放后的图像大小,k为待移除区域面积占裁剪后的图像面积的倍数,此时,RPN则在能覆盖到待移除区域外接最小矩形的区域内,随机生成尺寸为m*m像素大小的候选区域矩形框,对应图7中RPN之后的位于下方的分支所对应的图像中的各虚线框即为此时的候选区域矩形框。
在通过RPN生成多个候选区域矩形框之后,可以用分类网络根据 mobile-net提取出的图像特征,在生成的众多矩形框中预测出最合理的矩形框,即筛选出多个候选区域中的目标区域,并在原图中按该矩形框对应的区域裁剪图像,得到包含待移除目标区域的待处理图像。具体的,分类网络的输入包括mobile-net提取出的特征图、以及RPN所输出的各候选区域矩形框的上述中心点坐标、长以及宽等参数信息,分类网络根据这些输入信息筛选出目标区域即目标矩形框。如图7中所示的示意图中,原图(图中所示的为一个包含站在草坪上的人物图像)即原始图像中的待移除目标区域为原图中白色区域所示的区域,由RPN输出的多个候选矩形框和由Mobile-Net所提取得到的特征图输入至分类网络,基于分类网络的输出得到目标候选框,可选的,分类网络的输出可以是各候选矩形框的概率值,也可以是分值,概率值或分值最高的候选矩形框则可以作为目标候选框,如该示意图中,一个候选矩形框所对应的图像区域中90%的区域是草坪,另一个候选矩形框所对应的图像区域中60%的区域是草坪,20%的区域是天空,分类网络基于原图的特征图判断出90%的区域是草坪的候选矩形框包含更多的用于修复待移除区域的原图中的信息,则该候选矩形框为目标矩形框,根据该目标矩形框从原始图像中裁剪图像,该候选框所对应的原图中的区域即为裁剪后得到的图像。对于该示例中的原图,由于所要移除的区域为图中站在草坪上的两个人物,且这两个人物在原图中所占的区域也未与天空有交集,因此上述两个示意的候选矩形框中,90%的区域是草坪的候选矩形框是更加合理的矩形框,基于本申请实施例所提供的该方案,能够得到包含更多用于图像修复的原图信息的待处理图像,为提高图像修复的效果提供了基础。
其中,如果待移除目标区域的大小即面积N小于n*n*k,如小于上述 512*512*30%,则需要裁剪的区域的尺寸为512*512,PRN根据该尺寸所生成的各候选区域矩形框对应的各候选区域的大小为512*512,分类网络可以直接根据由mobile-net生成的特征图,从RPN所生成的众多候选区域矩形框中分类出最合理的区域框,并基于该区域框裁剪得到待处理图像,并生成对应的遮罩图像,并将这两张图像输入图像修复网络,在完成修复后,可以通过将修复后的图像与原始图像进行融合,如将修复后的图像与原始图像中除待处理图像之外的其他部分进行拼接,得到修复后的原始图像。如果待移除目标区域的大小即面积N大于n*n*k,如大于512*512*30%,则可以将分类网络筛选出的m*m大小的最合理的区域,缩放到512*512大小,再根据该缩放后的图像生成相应的遮罩图,并记录该缩放的比例
Figure BDA0002588162650000171
作为后期的用于图像超分辨率处理的参数,即在完成图像的修复后,根据该缩放比例
Figure BDA0002588162650000172
使用超分辨率处理技术使修复后的图像还原到m*m大小(图6中所示的(m, m),并将还原大小后的图像与原始图像融合,得到修复后的原始图像。
仍接上述示例进行说明,假设在基于原始图像裁剪得到的图像的大小为 768*768像素,即候选框的大小为m*m=768*768,在裁剪得到该大小的包含待移除目标区域的图像后,可以将该图像缩放至512*512像素,得到待处理图像,此时该缩放比例即为1.5。在通过图像修复网络完成对待处理图像的修复操作后,为了将修复完的图像与原始图像融合,需要修复完成后的该 512*512像素的图像超分辨到768*768像素大小,之后将超分辨处理后的图像与原始图像中剩余部分拼接,得到最终完成目标移除后的原始图像。
在实际应用中,可以在图像修复网络之后增加用于图像超分辨处理的网络结构,该网络结构的具体形式可以根据实际需求配置。如果待处理图像是经过缩放处理的图像,则图像修复网络在输出修复后的图像(也可以称为修复结果)后,可以通过该网络结构对修复后的图像进行超分辨处理,超分辨处理的缩放参数即缩放比例即为上述缩放处理对应的缩放比例,如果待处理图像是未经过缩放处理的图像,即经过裁剪后直接得到的图像,则可以不经过超分辨处理,将修复后的图像与原始图像中的剩余部分拼接即可,也可以将修复后的图像经过用于超分辨处理的网络结构,此时该网络结构中的缩放比例则为1。
作为一示例,图8a中示出了本申请提供的一种用于图像超分辨处理的网络结构的示意图。如图8a中所示,该网络结构为包含多个稠密块(dense blocks)的dense blocks网络层,每一层的dense block使用残差互传 (Residual-in-Residual)的方式,同时删除了批量正则化操作(BN,batch normalization),也就是将残差模块(residual block)和Densenet(稠密网络)中的dense block进行了整合,并删除了dense block中的BN结构。通过该网络结构进行超分辨处理时,每一层dense block会根据缩放比例
Figure BDA0002588162650000181
对输入图像进行超分辨处理,并将修复后的图像、以及每一层dense block的输出特征图进行融合,使得最终超分辨率处理后的结果(对应图中的超分结果) 能获得更多的纹理信息,达到更好的图像超分结果,将图像修复网络输出的修复图像还原到缩放前的裁剪图像大小。
本申请的可选实施例中,对所述待处理图像中的待移除目标区域进行修复之前,该方法还可以包括:
将待处理图像归一化到固定尺寸或者固定长宽比;
或者,
将待处理图像补齐为固定尺寸或者固定长宽比。
在实际应用中,通过图像修复模型对待处理图像进行修复时,待处理图像的尺寸可能不符合模型的输入图像尺寸要求,因此,在对待处理图像进行后续处理前,可以对图像的尺寸进行预处理,可选的,通过图像缩小或者放大的处理方式将待处理图像归一化到固定尺寸或者固定长宽比,或者是通过图像补齐的方式将待处理图像补齐到固定尺寸或者固定长宽比。其中,上述固定尺寸或固定长宽比可以是与图像修复模型的输入图像尺寸要求相对应的。
本申请的可选实施例中,上述预处理方式可以包括:
确定待处理图像中待移除目标区域的区域类型;
根据区域类型确定预处理的方式,即根据区域类型确定是通过图像归一化的方式对待处理图像进行预处理,还是通过图像补齐的方式对待处理图像进行预处理。
可选的,根据区域类型确定预处理的方式,可以包括:
若区域类型为第一类型,则将待处理图像归一化到固定尺寸或者固定长宽比;
若区域类型为第二类型,则将待处理图像补齐为固定尺寸或者固定长宽比。
由于待修复图像中待移除目标区域的区域类型不同,在进行图像修复时所能够依据的图像信息也会不同,因此,为了解决不同尺寸图像的修复问题,提高图像的修复效果,在对待处理图像进行预处理时,可以根据待移除目标区域的区域类型的不同采用不同的预处理方式。
其中,上述第一类型和第二类型的类型划分方式本申请实施例不做限定,可选的,上述第一类型可以是指形状规则的区域,如待移除目标区域为矩形、或者为圆形等规则形状,第二类型可以是指形状不规则的图像区域;或者,第一类型为待处理图像中待移除目标区域的面积大于第一设定面积的区域,或者待移除目标区域中连续不存在像素信息的区域大于第一设定面积的区域类型(即较大面积的图像区域中没有像素信息),第二类型为除第一类型之外的类型;或者,第一类型为除第一类型之外的类型。
对于第一类型的待移除目标区域,由于在进行图像修复时,由于图像中存在连续图像像素信息丢失的面积相对较大,如果直接进行图像修复,修复效果可能会不理想,此时则可以将待处理图像直接归一化到固定尺寸(即上述预设尺寸,如512*512像素)之后再进行图像修复,当然,可选的,待处理图像的尺寸不大于预设尺寸,也可以不进行该预处理或者根据其他可选方式进行处理,如根据图像修复模型的输入图像的要求进行相应的处理。对于第二类型的待移除目标区域,可以以镜面反射的方式或者其他图像补齐方式将待处理图像的宽和/或高处理成一定的尺寸,或者将待处理图像补齐到固定尺寸。当然,如果此时待移除目标区域符合模型的输入图像要求,也可以不进行该预处理。
作为一个示例,图8b中示出了本申请一示例提供的一种待处理图像预处理方式的流程示意图,该示例中第一类型的待移除目标区域(图8b中所示的图像中的白色区域)为矩形区域,第二类型为除第一类型之外的图像区域。需要说明的是,图8b中所示出的图像中的具体内容并不构成或用于限定本申请所提供的方案,该示例中的图像只是用于更好的说明两种不同类型的待移除目标区域。如图8b中右侧分支的图像中待移除目标区域(图中的白色区域) 为矩形,左侧分支的图像中待移除目标区域为不规则的区域。对于一个待处理图像,本申请的上述可选处理方案中,可以首先将图像中存在的丢失区域即待移除目标区域(待修复图像区域)分成2大类(对应图中的分类mask 步骤),一类为含有矩形丢失区域的图像,一类为其他类型丢失区域的图像。对于矩形区域的图像即待移除目标区域为矩形区域的待处理图像,可以直接归一化到固定比例或者固定尺寸(对应于图8b中的Resize到固定大小),如512*512像素大小,对归一化后的图像进行图像修复(图8b中所示的模型修复)。另一类,如果图像高或者宽不是512的倍数,则可以将待处理图像补齐到固定尺寸,如以镜面反射的方式补充到512的倍数,如待处理图像的高为119则补充到512,如果为549则补充到1024,宽亦同样的操作,对处理后的图像进行图像修复。
本申请的可选实施例中,根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像,包括:
基于待处理图像和遮罩图像,通过编码网络,提取待处理图像对应的融合特征图;
基于所提取的融合特征图,通过解码网络,对待处理图像中的待移除目标区域进行修复,得到修复后的图像。
在获取到待处理图像以及待处理图像所对应的遮罩图像之后,可以采用该图像修复网络,基于该待处理图像和遮罩图像,利用深度学习技术对该待处理图像中的待移除目标区域进行图像修复。其中,该图像修复网络具体包括上述编码网络和解码网络两个部分,编码网络用于图像的下采样处理,提取融合了遮罩图像信息的融合特征图,解码网络则基于编码网络输入的各层级的融合特征图,进行上采样处理,以得到修复后的图像。
本申请的可选实施例中,编码网络和解码网络分别包括至少一个第一卷积模块;其中,各第一卷积模块根据输入的融合特征图,进行卷积处理,并输出卷积处理得到的融合特征图。
可以理解的是,在编码网络和解码网络所包含的第一卷积模块为多个(包括两个)时,多个第一卷积模块之间依次级联,即当前卷积模块的输入为上一个卷积模块的输出,当前卷积模块的输出为下一个卷积模块的输入。另外,可以理解的是,编码网络的第一个第一卷积模块的输入为待处理图像和待处理图像对应的遮罩图像。
在实际应用中,作为一可选方案,第一卷积模块的个数通常选用多个,此时,在对待移除目标区域进行修复时,通过编码网络可以提取得到待处理图像的多个层级的融合了遮罩图像信息和待处理图像信息的特征图,同时获取到待处理图像的低层级特征和高层级特征,由于高层级特征具有更好的特征表达能力,而低层级特征包含更多的待处理图像的底层语义信息,因此,基于多个不同层级的特征图实现对待移除目标区域的修复,能够有效提高图像的修复效果。
具体的,编码网络和解码网络的具体网络结构可以根据实际需求配置,例如,可以通过门卷积(Gate Conv)网络结构实现。其中,门卷积网络结构中卷积模块的卷积处理方式可以采用常用的普通卷积处理方式,也可以采用其他卷积处理方式,如可以采用空洞卷积处理方式。
由前文的描述可知,现有的基于深度学习算法的图像修复方案,主要存在修复的图像中含有“鱼鳞现象”的问题、以及待移除区域面积较大时不能完全修复的问题、以及修复网络模型大小过大问题。针对这些问题,本申请实施例提供了多种不同的可选实施方式,下面将对各可选实施方式进行分别描述。
本申请的可选实施例中,编码网络还包括与编码网络的最后一个第一卷积模块级联的至少一个第二卷积模块;
其中,第二卷积模块根据输入的融合特征图,采用空洞卷积(dilation Conv) 处理方式即空洞卷积机制进行卷积处理,并输出卷积处理后得到的融合特征图;
本申请的可选实施例中,若第二卷积模块的数量为至少两个,则各第二卷积模块依次级联,各第二卷积模块中的至少两个第二卷积模块的卷积参数不同,其中,卷积参数可以但不限于包括空洞率。
在通过普通的卷积操作进行下采样提取特征图时,由于下采样过程中卷积核的感受野区域有限,在待移除区域不能够有效的提取出图像特征信息,尤其是在待移除目标区域面积较大时,会导致上采样时图像不能完全修复图像的丢失区域。而使用空洞卷积机制,可以在维持原卷积计算量的基础上增大感受野,使特征图中的每一个元素点都能获取到图像中的信息,从而解决在待移除目标区域面积较大时,部分区域无法修复的问题。
此外,本申请实施例的该方案,对于编码网络,通过在第一卷积模块的基础上增加了第二卷积模块,进一步加深了网络的深度,提取得到更多层级的用于图像修复的特征图即输入至解码网络的特征图,提到解码网络的图像修复效果。而第二卷积模块通过采用空洞卷积处理方式,能够使得模块所输出的融合特这图中的每一个元素点都极大可能的能够获取到图像中的信息,大大降低了一个元素点只能够对应到待移除目标区域的可能性,从而使得模块所输出的融合特征图中包含了更多的能够用于图像修复的信息,能够进一步提高图像修复效果。
作为可选的方案,为了进一步避免待移除目标区域过大时会使得融合特征图中的一个像素点不包含图像中的信息的问题,可以采用至少两个级联的第二卷积模块,且各第二卷积模块中至少两个卷积模块在进行空洞卷积处理时的卷积参数(如空洞率,也可以称为扩张率)不同,通过采用卷积参数不同的卷积模块,可以使得各卷积模块可以提取到对应于不同区域的特征,降低上述问题出现的概率。其中,各第二卷积模块的输入特征图和输入特征图的图像大小可以相同,也可以不同,作为一可选方案,为避免多次特征提取导致所得到特征图中所包含的元素点过少,各第二卷积模块的输入特征图和输出特征图的大小可以相同,也就是说,第二卷积模块在进行卷积处理时,卷积步长可以为1,各第二卷积模块所输出的融合特征图的大小与编码网络的最后一个第一卷积模块所输出的融合特征图的大小相同。
另外,需要说明的是,在实际应用中,解码网络在基于编码网络的各卷积模块(第一卷积模块和第二卷积模块)所输出的融合特征图进行上采样处理时,对于各第二卷积模块所输出的融合特征图,可以只将最后一个第二卷积模块所输出的融合特征图用于解码网络,也可以将各第二卷积模块所输出的融合特征图都用于解码网络。另外,在编码网络的各卷积模块所输出的融合特征图中存在图像大小相同的融合特征图时,这些图像大小相同的融合特征图也可以只有其中一个或几个或全部都用于解码网络,如可以只将这些图像大小相同的融合特征图中最深层级的融合特征图用于解码网络,例如,在各第二卷积模块的卷积步长为1时,各第二卷积模块所输出的融合特征图和最后一个第一卷积模块所输出的融合特征图的图像大小相同,可以只将最后一个第二卷积模块所输出的融合特征图用于解码网络。
而解码网络所包含的卷积模块的数量与编码网络所包含的卷积模块的数量是对应的,这里的对应可以理解为编码网络所进行的下采样处理的次数与解码网络进行上采样处理的次数是相同的。解码网络的各卷积模块在进行卷积处理时,对于与编码网络连接的第一个卷积模块(解码网络的卷积模块),其输入为编码网络所输出的最深层级的融合特征图,该第一个卷积模块基于该融合特征图通过卷积处理实现上采样,与该第一个卷积模块连接的解码网络的第二个卷积模块则基于该第一个卷积模块上采样后所输出的特征图和编码网络所输出的上一个层级(相对于输入至第一个卷积模块的融合特征图而言)的融合特征图(如果只将最后一个第二卷积模块输出的融合特征图用于解码网络,该融合特征图即为编码网络的最后一个第一卷积模块输出的融合特征图)进行卷积处理,也就是说,对于解码网络而言,其各卷积模块中,除与编码网络连接的第一个卷积模块之外,其他各卷积模块的输入既包括对应的编码网络的卷积模块所输出的融合特征图,还包括该卷积模块的上一卷积模块进行上采样处理后输出的特征图,基于该处理方式,实现了高层级特征图和低层级特征图的融合,提高了特征图的信息表达能力,有利于提高图像修复效果。
作为一个示例,图9a中示出了一种常用普通卷积操作的原理示意图,图 9b中示出了一种空洞卷积操作的原理示意图。如图9a中所示,图中左侧为基于普通卷积操作提取得到的一特征图的示意图,该特征图中的某一元素点 A和点B所对应的感受野分别为图9a右侧所示原图(即需要进行特征提取的图像,本申请实施例中的待处理图像)中的两个区域,其中所对应的区域大小是卷积核的大小决定的,其中,原图中的白色区域即为待移除目标区域,由图9a可以看出,A点对应的原图区域包含一部分原图信息和一部分丢失区域(即待移除目标区域),B点对应的原图区域全部为丢失区域,不能够提取到有用的图像信息。
而由图9b中所示的空洞卷积操作的原理示意图可以看出,特征图中的每一元素点所对应的原图区域都包含原图信息,即特征图的每一元素点都能够提取到原图的特征信息,如图中所示,每一元素点都能够对应原图中的5块区域(5块区域排布成色子中的点数“5”的排布形状),如图中示出了点A和点B所分别对应的原图中的5块区域。通过采用空洞卷积机制,可以更多的提取到原图信息,从而能够提高图像修复效果。
本申请的可选实施例中,各卷积模块(如第一卷积模块,或者,第一卷积模块和第二卷积模块)中的至少一个卷积模块根据输入的融合特征图,进行卷积处理,并输出卷积处理得到的融合特征图,包括:
根据输入的融合特征图,进行第一卷积处理,提取对应的图像特征图;
基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图,其中,每个通道的遮罩特征图是基于输入的融合特征图中的至少一个通道的特征图得到的,至少一个通道的通道数量小于第一通道数量;
将图像特征图和遮罩特征图进行融合并输出。
也就是说,编码网络和解码网络所包含的所有卷积模块中,可以有至少一个卷积模块是采样上述方案进行卷积处理的。具体的,对于采用该方案的卷积模块,其输入为上一个卷积模块输出的融合特征图即上一层级的融合特征图,基于该输入可以进行两个分支的处理,第一个分支是基于该输入的融合特征图提取图像特征图,另一分支则是基于该融合特征图实现遮罩特征图的更新,即采用基于输入的融合特征图中的一个或多个(但数量小于该输入的融合特征图的通道数量的总数)特征图得到一个通道的遮罩特征图的方式,得到所需要的通道数量的遮罩特征图,再通过将图像特征图和遮罩特征图进行融合输出该层级的融合特征图。
其中,第二通道数量具体可以为所提取的图像特征图的通道数量,将特征图和遮罩特征图进行融合时,则按照通道,将对应的通道的图像特征图和遮罩特征图进行融合。
基于待处理图像和遮罩图像(对于编码网络的第一个卷积模块而言),或者,图像特征图(对于除编码网络的第一个卷积模块之外的其他卷积模块而言)和更新后的遮罩特征图,得到融合特征图的方案,实质上是在待处理图像/图像特征图上进行部分卷积的运算,而是否需要对待处理图像/图像特征图的某些区域进行卷积运算是取决于遮罩图像/遮罩特征图的。在通过卷积模块输出卷积处理提取的融合特征图时,对于当前层级的融合特征图的提取,除了需要基于上一层级的融合特征图提取相应的图像特征图之外,还需要获取到与该图像特征图相对应的遮罩特征图,也就是需要基于上一层级的融合特征图实现对当前层级的所需的遮罩特征图的更新。
在现有的门卷积技术中,遮罩特征图的更新是使用多对多的门卷积的方式更新每一层的图像特征图的遮罩特征图,如输入的融合特征图即上一层级的融合特征图的个数为M,需要更新的遮罩特征图的个数为N,门卷积更新 N张遮罩特征图中的每一张遮罩图,都需要基于M张特征图,则N张遮罩特征图共需要N*M次卷积运算,计算量很大,且基于该方式实现的图像修复结果中出现“鱼鳞现象”的概率也较高。
针对现有技术中所存在的上述问题,本申请实施例所提供的该方案,在更新遮罩特征图时,不使用多对多的卷积方式更新,即不再采用基于上一层级的融合特征图,更新得到每一个遮罩特征图,而是采用基于一个或多个但并非全部的上一层级的融合特征图,得到一个通道的遮罩特征图。基于该方案可以有效减少所需要处理的数据量,大大减少了运算量,且与现有技术相比能够降低“鱼鳞现象”出现的概率。基于本申请实施例所提供的该方案的原理的改进的门卷积可以称为遮罩图注意力门卷积(Mask-wise Gated Conv),基于该遮罩图注意力门卷积得到遮罩特征图时,可以基于一个或多个但并非全部的上一层级的融合特征图,得到一个通道的遮罩特征图。
本申请的可选实施例中,基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图之前,还包括:若第一通道数量不等于第二通道数量,则将输入的融合特征图转换为第二通道数量的融合特征图。
此时,基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图,包括:基于转换后的第二通道数量的融合特征图中每个通道的特征图,分别进行第二卷积处理,提取得到每个通道对应的遮罩特征图。
在基于输入的融合特征图中的至少一个通道的特征图得到一个通道的遮罩特征图(即基于上一层级的至少一个通道的融合特征图得到一个通道的遮罩特征图)时,具体可以是基于输入的融合特征图中的一个通道的特征图得到一个对应通道的遮罩特征图。也就是说,可以采用一对一的遮罩特征图更新方式,基于每一个通道的融合特征图提取得到对应通道的遮罩特征图,基于该方案可以进一步减少运算量。
另外,在采用一对一的遮罩特征图的更新方式时,在所需要得到的遮罩特征图的通道数量不等于输入的融合特征图的通道数量时,也就是,在第二通道数量不等于第一通道数量时,需要首先将输入的融合特征图按照第二通道数量进行转换(如可以通过全卷积操作等方式进行转换处理),即将第一通道数量的输入的融合特征图转换为第二通道数量的特征图,基于转换后得到的第二通道数量的特征图中的每一个通道的特征图,得到对应的一个通道的遮罩特征图。
本申请的可选实施例中,基于输入的融合特征图中的至少一个通道的特征图得到一个通道的遮罩特征图,具体可以包括:
基于输入的融合特征图中的至少一个通道的融合特征图,分别按照至少两种卷积处理参数进行处理,提取对应于至少两种感受野的特征图;
将所提取的对应于至少两种感受野的特征图融合,得到一个通道的遮罩特征图。
为了能够得到具有更好的特征表达能力的遮罩特征图,在基于相应通道的融合特征图得到对应的遮罩特征图时,可以基于该融合特征图,提取对应多种感受野的特征图,再通过将多种感受野的特征图融合,得到遮罩特征图。由于对应不同感受野的特征图的特征表达能力不同,对应较大感受野的特征图具有更强的特征表达能力,而对应于较小感受野的特征图能够包含更多的图像语义信息,因此,基于该融合方式得到的遮罩特征图,具有更好的表达能力。
例如,在采样上述一对一的方式,进行第二卷积处理得到遮罩特征图时,可以基于输入的融合特征图(或者转变后的特征图)中的每一个通道的特征图,通过至少两种卷积处理参数进行卷积处理,得到对应于至少两种感受野的特征图,再将至少两种感受野的特征图进行融合得到一个通道的遮罩特征图。
由于基于本申请所提供的通过卷积处理得到融合特征图的方案,与现有的卷积处理方案相比,能够大大减少运算量,因此,在基于深度学习算法提取特征时,与现有技术相比,可以采用更深的网络结构,提取到更多层级的特征,从而在基于所提取的多层级的特征进行图像修复时,能够得到更好的修复效果。
下面结合一个具体示例对本申请实施例所提供的融合特征图提取方案进行进一步详细说明。
图10a示出了本申请实施例提供的一种第一卷积模块的结构的示意图,由图中可以看出,该卷积模块的卷积结构是一种改进的门卷积结构,可称为深度门卷积,如图10a中所示,该深度门卷积结构包括特征图像提取分支 (feature map branch)和更新遮罩图分支(Updated mask branch),其中,更新遮罩图分支中用于对输入的融合特征图进行第二卷积处理的卷积结构可以称为深度卷积层(图中所示的Depth Conv2D)。其中,特征图提取分支用于根据输入的融合特征图(图中所示的融合遮罩图信息的特征图),通过卷积结构(图中所示的Conv2D)进行第一卷积处理,得到图像特征图(图中所示的特征图),深度门卷积在更新遮罩图时,可以只使用输入特征图(input feature maps)中的一个通道的特征图,并可以使用不同大小的感受野更新遮罩图(即遮罩特征图)。在实际处理时,由于更新后的遮罩特征图的通道数量应与特征图像提取分支所提取得到的特征图(即图像特征图)的通道数量相同,因此,如果深度卷积层的输入通道输出通道个数不一致,也就是说输入到门卷积结构特征图的通道数量即input feature maps的通道数量不等于各分支的输出特征图的通道数量,则需要对输入的融合特征图进行转换处理,将输入的融合特征图的通道数量转换为输出特征图的通道数量,如可以通过使用全卷积层 (FCN,Full convolutionnetwork)将输入通道和输出通道个数变为一致。如深度门卷积需更新得到N张遮罩图,输入的融合特征图(input feature maps) 的通道个数为M,则可以使用FCN,将其通道个数转变为N。待更新的N张遮罩图中每一张遮罩图,可以仅使用经全卷积转变后的N张特征图中的1张特征图更新,并且在更新过程中可以使用不同感受野大小的卷积(对应图中的①和②)进一步更新遮罩图。最后再使用全卷积将不同感受野获得的遮罩图融合为一张最终更新完的遮罩图(对应图中的③),完成遮罩图的更新。图 10a中所示的该改进的门卷积结构则是本申请实施例所提供的遮罩图注意力门卷积的一种可选结构。
针对图像修复任务,遮罩图(遮罩图像或更新后的遮罩特征图)用于确定特征图中哪部分特征可以传入下一层,哪部分特征不能传入下一层,即遮罩图对数据的特征图做了加权处理。为使用卷积操作实现加权的处理机制,深度门卷积同门卷积一样,需要使融合了不同感受野遮罩图的全卷积的输出范围为[0,1]之间,因此可以使用如sigmoid激活函数,确保输出的数据值的范围为[0,1]之间,从而在对应元素点乘的时候,实现通过遮罩图对图像的特征图加权的目标。
作为一个示例,图10b中示出了本申请实施例提供的一种第一卷积模块的具体结构示意图,如图所示,其中特征图提取分支可以使用普通卷积加 leakyReLU激活函数(图中所示的Conv2D+leakyReLU)实现,该示例中卷积结构的卷积核大小为k*k,该分支用于基于上一层级的融合特征图提取图像特征图,因此在该分支激活函数的输出范围没有范围要求,即可以使用任意的激活函数。遮罩图更新分支可以使用不同的感受野更新遮罩图,各该分支又可以包含对应于多个不同感受野的分支,图10b所示出的该网络结构中使用两种不同的感受野进行了特征图的提取,因此遮罩图更新分支含有2个分支。
图10b中所示的本示例中的遮罩图更新分支(也可以称为更新遮罩图分支)中的每种感受野所对应的特征图提取结构(图中所示的深度卷积结构即 Depth-Gated Conv),包括依次级联的三层卷积提取结构,如图中所示的一条分支的三层卷积提取结构的卷积核大小(图中所示的卷积大小)分别为1*1、 m*m、1*1,另一分支的卷积核大小分别为1*1、n*n、1*1。其中,每一分支的第一卷积核大小为1*1的卷积结构,适用于将输入的特征图(inputfeature maps)的通道个数转变为给定的输出特征图的需要的通道个数,如输入的特征图的通道数量为M,需要输出的遮罩特征图的个数为N,则第一个卷积结构用于将输入的通道数量为M的特征图转变为通道数量为N的特征图,第二个卷积结构(卷积核大小为m*m或n*n)则用于分别基于第一个卷积结构输入的特征图进行相应的感受野的特征图的提取,第三个卷积结构则用于对第二个卷积结构输出的特征图进行进一步的特征提取,两条分支所提取得到的对应于不同感受野的特征图使用通道连接操作(图中所示的Concat axis=3 结构,其中,axis=3表示按照通道连接),将上一层两条分支所提取得到的遮罩特征图连接起来,使用全卷积层并限制全卷积层的输出范围为[0,1],如使用卷积加sigmoid激活函数结构(图中所示的Conv2D+Sigmoid)实现限制该层的输出范围,完成遮罩图的更新。
之后,将特征图提取分支所提取到的图像特征图和遮罩图更新分支所输出的遮罩特征图按照对应的通道,使用对应元素点乘,用遮罩图更新分支输出的遮罩特征图乘以特征图提取分支输出的图像特征图,完成特征图基于遮罩图的信息的加权,输出融合了遮罩图信息的融合特征图。
另外,可以理解的是,该示例中的m和n与前文基于语义信息进行图像裁剪的示例中的m和n是无关的。
由前文描述可知,为了使所提取的融合特征图中尽可能多的包含待处理图像的信息,在提取融合特征图时,可以采用空洞卷积机制实现,因此,在基于本申请实施例所提供的深度门卷积结构进行融合特征图提取时,深度门卷积结构中的各卷积部分同样可以采用空洞门卷积处理方式。以图10a中所示的深度门卷积结构为例,将图10a中所示的深度门卷积结构中的卷积部分 (Conv2D和Depth Conv2D部分)替换为空洞门卷积之后,其网络结构如图 10c中所示,也就是可以将图10a中所示的结构中的卷积部分都可以相应的替换成空洞卷积。以图10b中所示的网络结构为例,则可以将图10b中的传统卷积(图中所示的Conv2D)替换成空洞卷积(图10c中所示的Dilated Conv2D),可以将图10b中所示的深度卷积(图中所示的Depth-Gated Conv) 替换成深度空洞卷积(图10c中所示的Depth dilatedConv2D)。其中,在提取多个层级的融合特征图时,每个层级的空洞卷积机制可以采用相同或不同的空洞率,可选的,为了尽可能多的提取到有效的图像中的信息,随着网络层级的加深,空洞率可以逐渐变化,如可以逐渐增大。
可以理解的是,编码网络中的第二卷积模块在采用本申请实施例所提供的卷积处理方式进行融合特征图的提取时,图10c中所示的网络结构即可以为一种可选的第二卷积模块的结构示意图。
本申请的可选实施例中,在进行卷积处理时,至少一次卷积处理采用以下方式进行:
通过编码器提取输入特征图的图像特征,并通过解码器对提取的图像特征进行解码得到新的特征图;
将新的特征图和输入特征图进行元素值融合,基于融合后的特征图得到输出特征图。
可选的,基于融合后的特征图得到输出特征图,可以包括:
将融合后的特征图作为输出特征图,或者,基于融合后的特征图和输入特征图得到输出特征图。
其中,基于融合后的特征图和输入特征图得到输出特征图的具体方式本申请实施例不做限定,如可以是对融合后的特征图进行进一步的特征提取,将提取后的特征图再与输入特征图进行元素值融合,得到输出特征图,或者还可以是对输入特征图进行进一步的特征提取,将提取后的特征图与融合后的特征图进行元素值融合,得到输出特征图。其中,特征图之间的元素值融合方式本申请实施例不做限定,包括但不限于相应位置的元素值的相乘、相加等。
可选的,上述基于融合后的特征图和输入特征图得到输出特征图,可以包括:
基于融合后的特征图对输入特征图进行加权处理,得到输出特征图。
也就是说,可以基于融合后的特征图得到输入特征图的权重特征图,基于权重特征图对输入特征图进行加权处理,即权重特征图和输入特征图对应位置的元素值进行相乘,得到输出特征图。
本申请的上述可选方案,提供了几种新的卷积处理方式,这两种新的卷积处理方式可以简称为差分卷积(Difference Convolution),采用该处理方式,可以进一步增加图像修复任务中提取的有效特征。
需要说明的是,该卷积处理方式可以应用于图像修复模型中任一卷积处理模块的卷积处理方式,也可以是任一卷积处理模块中的任一卷积层的处理方式。也就是说,该差分卷积可以替代普通卷积进行特征提取,也可以嵌套入门卷积、深度门卷积或者其他包含普通卷积或者其他卷积的操作中进行特征提取,例如,图10a至图10c中的任一进行卷积处理的结构都可以是该种卷积处理方式,或者是任一卷积处理分支都可以以该卷积处理方式替换,如图10a至10c中的特征图像提取分支和/或更新遮罩图分支的卷积结构可以差分卷积替换,或者分支中的某个或某些卷积部分(如更新遮罩图分支中的一个或多个深度卷积或者深度空洞卷积)以差分卷积替换。
此外,在采用上述基于融合后的特征图对输入特征图进行加权处理的方式时,为了实现加权处理机制,可以将融合后的特征图进行进一步处理,以将新的特征图中各元素的取值转化至[0,1]之间,如可以通过卷积加sigmoid激活函数的结构来对新的特征图进行处理,将处理后的特征图(即上述权重特征图)与输入特征图进行对应位置的元素点乘,得到输出特征图。
可以理解的是,上述输入特征图可能是融合特征图,也可能是模型的输入数据(遮罩图像、待处理图像)。
另外,在将差分卷积应用于更新遮罩图分支时,在通过上述元素值融合得到输出特征图之后,为了使输出特征图中的各元素值的取值范围在[0,1]之间,还可以使用如卷积加sigmoid激活函数的结构来约束输出特征图中元素的取值。
下面结合两个示例对本申请所提供的差分卷积的原理进行说明。
图10c1中示出了一种将差分卷积应用于图像修复模型的特征图提取分支中的结构示意图,如图中所示,该示例中在进行卷积处理时采用的门卷积结构,其中,该门卷积结构中的特征图提取分支可以采用差分卷积的处理结构,具体的,特征图提取分支用于根据输入的融合特征图(图中所示的融合遮罩图信息的特征图),通过卷积结构(本示例中为差分卷积)进行卷积处理,得到图像特征图(图中所示的特征图),更新遮罩图分支根据输入的融合特征图,通过传统卷积(图中所示的Conv2D)得到更新遮罩图(即遮罩图),之后,图像特征图和遮罩图通过元素点乘方式,得到输出的融合特征图。
图10c2和图10c3中分别示出了本申请提供的两种可选的差分卷积结构的示意图,如图10c2中所示,该可选的结构中对于输入特征图(图中所示的输入的特征图,上一层输出的特征图或者原始数据),可以通过一个编码器(提取输入特征图的特征)和解码器(根据编码器提取的特征进行解码)生成新的特征图,最后将这两种特征图进行元素点运算(如元素点减运算)得到输出特征图。图10c3中所示的差分卷积结构与图10c2相比,在通过编码器和解码器生成新的特征图,并将新的特征图和输入特征图进行元素点运算得到融合后的特征图之后,还可以进一步基于该融合后的特征图和输入特征图得到输出特征图。具体的,可以通过卷积加激励函数(图中所示的 Conv2D+Sigmoid)的结构将融合后的特征图的各元素点的值处理到0-1之间,之后将处理后的特征图和输入特征图进行元素点乘,得到输出特征图。
其中,差分卷积结构中上述编码器和解码器的结构本申请实施例不做限定,如可以是U-net结构也可以是带有残差连接的U-net结构亦或者是不对称的U-net结构,该结构中用到的卷积核大小,卷积步长和空洞率可以任意设置,但需要保证输出和输出的特征图的大小和数量一致。其中元素点运算可以是新的特征图和输入特征图中对应元素点的加法,减法,乘法或者除法,主要目的是为了增强特征图中的特征信息。
本申请的可选实施例中,根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像,包括:
基于待处理图像和遮罩图像,得到初步修复后的图像;
生成与待处理图像大小相同的噪音图像;
基于初步修复后的图像和噪音图像,得到修复后的图像。
在图像修复操作中,修复后的图像中常会出现“鱼鳞现象”。通过观察含有“鱼鳞现象”的修复图像可知,“鱼鳞现象”其语义信息中颜色信息与背景信息一致,但纹理信息不一致,且纹理信息越丰富,出现“鱼鳞现象”的概率越大。“鱼鳞现象”呈现出同鱼鳞一样规则纹理,为了解决“鱼鳞问题”,需要破坏该规则性的纹理。在上采样的最后一层加入随机噪音信息,再通过卷积运算即可达到破坏该规则纹理的效果,从而进一步降低“鱼鳞现象”的出现。
具体的,在基于待处理图像和对应的遮罩图像,得到多个层级的融合特征图之后,在图像解码部分(即通过解码网络进行处理的部分),这可以基于该多个层级的融合特征图进行上采样处理,以得到修复后的图像。其中,在完成最后一个层级的上采样处理后,即可以得到多个通道(通常为R、G、B 三个)的修复后的图像,为了进一步避免“鱼鳞现象”,可以根据这3个通道图像的大小生成相同大小的噪音图像,如可以生成与修复后的图像大小相同的高斯噪音图,并合并3个通道的修复后的图像和噪音图像,得到4个通道的图像数据,进一步可以继续通过卷积操作生成最终的修复结果图。其中,噪音图像中各元素点的元素值的取值范围可以实际需求配置,作为一可选方式,该取值范围可以为[-1,1],也就是说,噪音图像中各元素的元素值可以是随机生成的大小为-1至1之间的随机数。
本申请的可选实施例中,该方法还可以包括对目标图进行以下至少一项的处理:
对目标图中邻近位置的元素点的元素值进行随机交换;
对目标图中元素点的元素值进行随机调整;
其中,目标图为至少一个融合特征图和/或通过解码网络得到的修复后的图像,也就是说,该目标图可以为前文中所描述的编码网络或解码网络中所涉及到的任一融合特征图,还可以是通过解码网络得到的修复后的图像,该修复后的图像可以是解码网络输出的图像,如上述初步修复后的图像,也可以是对解码网络输出的图像进行进一步处理后的图像,如上述基于初步修复后的图像和噪音图像,得到的修复后的图像。
可以理解的是,该方案中的处理方式具体可以作为图像修复模型输出后的处理进行,也可以是嵌套在模型中作为特殊的一层数据处理。在对目标图进行该处理时,如果后续还存在基于该目标图的其他处理,则可以是基于处理后的目标图进行相应的处理,如在目标图为融合特征图时,后续基于该融合图的处理,则可以是对该融合特征图进行该方案中的处理,再基于处理后的图进行后续处理,如果后续不存在对目标图(如修复后的图像)的其他处理,则处理后的目标图即为最终的修复后的图像。
由前文的描述可知,为了改善或解决“鱼鳞现象”,主要需是对图像中的规则性的纹理进行破坏,而在对图像进行修复的过程中,由于对图像的编码以及解码等处理(例如,在基于融合特征图,通过解码网络对图像进行修复的过程中,对特征图的上采样处理),很有可能导致图像中的某一区域(如图像中的某一行某一列)的元素点的元素值较为集中的过大或过小,从而导致了“鱼鳞现象”的出现。本申请实施例所提供的该方案,通过对目标图中元素值的随机交换和/或随机调整,可以有效避免图中某一区域中元素值集中过大或过小的问题,从而能够有效解决由于该问题所导致的“鱼鳞现象”的出现,从而提高最终所得到的修复后的图像的效果。
本申请的可选实施例中,对目标图中邻近位置的元素点的元素值进行随机交换,包括:
对目标图执行至少一次以下处理,得到与目标图大小相同的处理后的目标图:
对目标图分别进行第一边缘裁剪和第二边缘裁剪,得到第一裁剪图和第二裁剪图;
生成第一裁剪图所对应的第一权重图和第二裁剪图的第二权重图,其中,第一权重图和第二权重图中元素点的元素值为1或0,且第一权重图和第二权重图中相同位置的元素点的元素值不同;
基于第一权重图和第二权重图,对第一裁剪图和第二裁剪图进行融合,得到处理后的图。
其中,对目标图进行上述处理的次数可以根据实际需求配置。可以理解的是,在执行上述处理的次数大于1次时,除首次执行之外,其他再次执行该处理的步骤是在上一次处理后的图的基础上进行的处理。在完成所配置的次数的处理后,可以通过对处理后的图进行图像补全、图像模糊操作等处理,得到与处理前大小相同的处理后的目标图,后续基于该目标图的处理,则可以在经过该处理后的目标图的基础上进行。
另外,上述对目标图(或经过依次或多次上述处理的目标图)进行边缘裁剪时,具体的裁剪方式本申请实施例不做限定,可以根据实际需求配置。但对于本领域技术人员而言清楚的是,为了实现对目标图中元素点的元素值的交换,上述第一裁剪图和第二裁剪图是大小相同但图像内容不同的两幅图,即两幅裁剪图中部分或全部元素点的元素值不同。此外,为了避免目标图中过多信息的丢失,在裁剪时,一般是裁剪掉目标图中很少的一部分,如裁剪掉某一行(或某几行)和/或某一列(某几列)的元素点。而在对处理后的图进行图像补全时,可以根据具体的裁剪方式,补全所裁剪掉的元素点,得到与处理前的目标图大小相同的图。
其中,补全的具体方式本申请实施例不做限定,如可以根据裁剪方式,在相对应的位置进行补全,如对图像进行了上方和左侧的裁剪,则可以在上方和左侧进行补充,也可以只是在某一或某几个方向上进行补全,如对图像进行了上方的裁剪,可以在下方进行补全。在进行补全时,由于在裁剪时,裁减掉的信息很少,并不会对最终修复后的图像造成实质性的影响,也就是对用户而言,并不会产生视觉上的影响,因此,补全数据的形式本申请实施例也不做限定,如补全数据可以为任一数,也可以是采用被裁剪掉的部分的图进行补全。
作为一可选方式,假设目标图的图像宽度为w,高度为h,在对目标图进行裁剪时,可以将目标图的左侧第一设定宽度(记为a)和上方第二设定宽度 (记为b)的图像裁减掉,得到第一裁剪图,将目标图右侧第一设定宽度和下方第二设定宽度的图像裁减掉,得到第二裁剪图,则可以得到宽度为w-a,高度为h-b的第一裁剪图和第二裁剪图。可以理解的是,第一裁剪图和第二裁剪图可以互换。在进行两次像素值的随机交换处理时,第二次处理则可以是在第一次处理的结果上进行再次处理,如基于宽度为w-a,高度为h-b的第一裁剪图和第二裁剪图进行处理后,则可以基于处理后的宽度为w-a,高度为 h-b的图像再次进行处理,如可以将宽度为w-a,高度为h-b的图像的左侧第三设定宽度(记为c)和上方第四设定宽度(记为d)的图像裁减掉,得到该次处理的第一裁剪图,将宽度为w-a,高度为h-b的图像的右侧第三设定宽度和下方第四设定宽度的图像裁减掉,得到此次处理的第二裁剪图。
其中,第一权重图和第二权重图可以是随机生成的图像,如随机生成的图像中元素值只包含0和1的噪声图像。由于第一权重图和第二权重图中相同位置的元素点的元素值不同,且元素值只包含0和1,因此,如果将第一权重图记为图A,则第二权重图可以记为1-A,也就是,第一权重图和第二权重图中相同位置的元素点的元素值,一个为1,一个为0。在基于第一权重图和第二权重图,对第一裁剪图和第二裁剪图进行融合时,由于第一权重图和第二权重图中相同位置的元素值一个为1,一个为0,且1和0为随机生成的,因此,基于该融合方式,对于融合后的图像中的各元素点,则为随机选择了第一裁剪图和第二裁剪图中各元素点的元素值的元素点,实现了元素值的随机交换。具体的,可以基于以下表达式实现第一裁剪图和第二裁剪图的融合:
A*X1+(1-A)*X2
其中,X1和X2分别表示第一裁剪图和第二裁剪图,A和1-A分别表示第一权重图和第二权重图,对于第一裁剪图和第二裁剪图任一相同位置的元素点,则可以基于该元素点在第一裁剪图和第二裁剪图的元素值,以及该元素点在第一权重图和第二权重图的元素值,得到融合后的图中该元素点的元素值。
下面结合一个示例对本申请所提供的该元素值的随机交换方式进行说明。
本示例中以该方式作为图像修复后的后处理流程为例进行说明,也就是,目标图为修复后的图像,具体为图像修复网络的输出图像,本示例中进行了两次上述元素值的随机交换处理。图10d中示出了本示例中的一种图像处理方法的流程示意图,如图中所示,该方法的处理流程可以包括:
首先,将待修补的图像(待处理图像,图中白色区域即任务图像的眉毛区域为待移除目标区域)和遮罩图(待处理图像的遮罩图像)输入图像修复网络得到模型的输出图像X,其宽度为w1,高度为h1。输出图像X中待移除目标区域所对应的区域出现了规则的鱼鳞现象,如图10e中所示,为对应区域的放大图,需要说明的是,为了能够更清晰的显示出鱼鳞现象,图10e中的示意图是对图10d中相应区域的图像进行了色阶调整后的示意图。
对于输出图像X,以图像的左上角作为坐标原点,在图像的宽度[0,w1- a]范围和高度[0,h1-b]的范围裁剪图像X(即裁剪掉图像右侧宽度为a的图像和下方宽度为b的图像)生成图像X_2(第一裁剪图像),在宽度[a,w1] 和高度[b,h1]裁剪图像X(裁剪掉图像左侧宽度为a的图像和上方宽度为b 的图像)得到图像X_1(第二裁剪图像)。按照宽度为w1-a、高度为h1-b的尺寸生成噪音图Inoise1(第一权重图,图中所示的噪音图像A),该噪音图像 A的数值只包含0或者1,且为随机生成。用尺寸与噪音图相同的元素值为全1的图像中的元素对应点减去噪音图A获得噪音图I-Inoise(第二权重图),其中,I表示大小与裁剪后图像相同且值全为1图像。利用公式(1- Inoise1)*X_1+Ino*X_2得到运算结果图像Y,其中,公式中的+、-、*运算分别为对应元素点的加、减、对应点点乘运算,至此完成了一次图像元素的交换。可见,完成一次交换处理后的图像可以通过以下表达式表示:
Figure BDA0002588162650000371
其中,i和j分别表示此时处理的第一裁剪图像和第二裁剪图像中的各像素点,可见,图像Y中每个像素点的像素值等于第一裁剪图像中该像素点的像素值和第一裁剪图像的权重图中该像素点的权重值的乘积,与第二裁剪图像中该像素点的像素值和第二裁剪图像的权重图中该像素点的权重值的乘积之和。
在进行第二次处理时,此时则是基于图像Y进行处理,记图像Y的宽度和高度分别为w2和h2。与上述第一次处理同理,在图像Y中按宽度[0,w2- c]和高度[0,h2-d]裁剪Y得到Y_2,按宽度[c,w2]和高度[d,h2]裁剪得到 Y_1。同上,生成宽度和高度分别为w2-c和h2-d的噪音图像B,利用公式 B*Y_1+(1-B)*Y_2得到结果图像I。
在完成上述两次处理后,将结果图像I的宽度和高度分别补全到w1和 h1,可以采用上下左右各补一部分,也可以只在某方向上补全图像,补全的数据可以为任意数,也可以为第一次处理所裁剪掉的图像,补全后的图像记为I_padding。为了使处理后的图像更加平滑自然,在得到图像I_padding之后,可以使用图像模糊操作,如采用高斯卷积核模糊,分别对图像I的R、 G、B这3个通道进行模糊运算,合并模糊运算后的数据,得到最终的输出图像I_output,如图10d中示出了一大小为3*3的模糊卷积核,在基于该卷积核进行图像模糊处理时,对于图像中任一通道的任一像素点,其模糊处理后的像素值是通过对以该像素点为中心的,大小为3*3范围内的像素点的进行加权平均得到的,例如,假设该像素点的周边像素点的权重均相同,该像素点本身的权重为其周边像素点的权重的k倍,则模糊处理后的该像素点的像素值则为这9个像素点像素值的加权平均值。
通过本申请该示例所提供的方案,在完成图像的修复处理后,可以有效消除上述图像X中的鱼鳞现象。
本申请的可选实施例中,对目标图中元素点的元素值进行随机调整,包括:
对目标图执行至少一次以下处理,得到与目标图大小相同的处理后的目标图:
对目标图分别进行第三边缘裁剪和第四边缘裁剪,得到第三裁剪图和第四裁剪图;
基于第三裁剪图,得到第四裁剪图的调整系数;
基于调整系数对第四裁剪图中元素点的元素值进行调整,得到处理后的图像。
其中,对于第三裁剪图和第四裁剪图的描述,可以参见前文中对第一裁剪图和第二裁剪图的描述。
本申请实施例所提供的该方案,可以基于其中一个裁剪图实现对另一裁剪图中的元素值的调整,从而可以有效避免目标图中元素值过大或过小的集中区域的出现。其中,上述调整系数包括第一裁剪图中每个元素点的调整系数,调整系数的取值范围可以为[0,1]。
作为一可选方式,调整系数的取值可以为0或1,基于该方式,可以实现对目标图中元素值的随机删减,能够更加有效避免上述可能出现的集中区域。
其中,基于第三裁剪图得到第四裁剪图的调整系数图的具体方式,可以根据实际应用需求配置,如可以通过级联的卷积结构以及激励层结构实现,具体的,可以通过卷积结构对第三裁剪图进行特征提取,再由激励层结构(如 Sigmod函数)基于提取的特征图输出上述取值范围(或取值为0或1)的调整系数图。而基于调整系数图对第四裁剪图中元素点的元素值进行调整,可以是基于调整系数图直接对第四裁剪图进行处理,或者是基于调整系数图对预处理(如进行卷积处理)后的第四裁剪图进行处理。
作为一示例,图10f中示出了本申请提供的一种对目标图进行元素值调整的示意图,如图中所示,对于目标图,可以首先通过不同的裁剪方式得到第三裁剪图和第四裁剪图,如可以采用图10d中所示的裁剪方式,对于第三裁剪图可以通过卷积处理后,再经由第一激励函数(如sigmod函数)得到元素值为0和1的特征图(即特征图中的每个元素点即为一个调整系数,可以称为调整系数图),对于第四裁剪图则在通过卷积处理后,再经由第二激励函数(可以根据需要选择,如sigmod函数、softmax函数等)处理后输出对应的特征图,该特征图与调整系数图进行对应元素点的点乘操作,得到处理后的图像。同样的,在完成该处理操作后,可以通过图像补全、以及图像模糊处理等操作,得到最终的输出图像。
需要说明的是,在实际应用中,该方案的目的是实现对图中元素值的调整,以避免图中某一区域的元素值集中过大或过小,因此,该处理方案中,输入图(即目标图)和输出图(即对目标图进行调整后的图)的图像大小是相同的。
本申请的可选实施例中,在进行卷积处理时,对于至少一次卷积处理中的至少一次卷积计算采用以下方式进行:
将该次卷积计算所对应的待卷积区域中的至少两个元素值进行随机交换,和/或,将该次卷积计算的至少两个卷积参数进行随机交换;
基于随机交换后的待卷积区域的元素值和卷积参数进行卷积计算。
本申请的该方案,提供了解决上述“鱼鳞问题”的另一可选方案,具体的,在模型训练的每一次前向传播过程中,对于模型中的卷积计算,可以交换卷积核滑窗对应区域内的特征值(即特征图或者图像中的元素点的元素值) 位置和/或交换卷积核权重(即卷积核的卷积参数)的位置,以达到将特征图或图像中元素值的位置进行随机交换的目的,有效避免特征图或图像中元素值集中过大或过小的问题,减少不平衡过载点(uneven overlappoints)出现的概率。同样的,在完成模型训练,采用模型对待处理图像进行修复时,也可以通过该方式提高图像的修改效果,减少“鱼鳞问题”。
为了更好的理解该方案的原理,下面结合一个示例对该方案进行说明。
作为一个示例,图10g(1)为现有标准的图像卷积运算的原理示意图,该示例中,其中的卷积核大小为3*3,卷积步长为2*2,由于卷积步长小于卷积核的大小,便会出现卷积核与图(特征图或图像)中卷积作用区域上的重叠,所以在卷积运算时导致不平衡过载点的现象出现,即固定位置的元素点重复计算多次,这导致图像修复的结果易于出现“鱼鳞问题”。
本申请实施例提供的该方法为了解决不平衡过载点问题,在模型训练每次前向传播时随机交换每个或者部分卷积核滑窗区域内的特征值的位置,和 /或交换每个或者部分卷积核权重的位置,从而解决不平衡过载点问题。如图 10g(2)所示,标准卷积在前向传播中卷积核滑窗区域对应的特征图的位置为数字1-9的位置,而随机交换卷积在前向传播中的位置的一种可能的位置为图10g(3)所示,且每一次的前向传播,卷积核滑窗对应的特征图的位置都可以被随机交换或卷积核权重随机交换。
为了能够更加详细具体的说明本申请所提供的图像处理方法,下面再结合具体的示例对本申请所提供的该方法进行整体性的说明及描述。
图11中示出了本示例中所提供的图像处理方法的整体流程示意图,如图中所示,该图像处理方法主要可以包括以下几个方面:
1)基于语义信息的图像裁剪,对应图11中的所示的步骤1,即基于语义信息的裁剪;
2)针对图像修复的特殊卷积(即深度门卷积);
3)修改的U-net结构,其中步骤2)和3对应图11中所示的步骤2,即通过图像修复网络进行图像修复的步骤;
4)超像素修复结果即超分辨率处理(也可以称为超分辨处理),对应图11中所示的步骤3,即超分辨处理。
其中,基于语义信息的图像裁剪和超像素修复结果主要用于解决现有 U-net模型不能直接处理高清图像的问题。特殊卷积用于解决鱼鳞以及网络模型大的问题。修改的U-net结构则用于解决待移除目标区域面积较大时,修复结果差的问题。
如图11中所示,在基于该方法进行图像处理时,基于语义信息的图像裁剪步骤即步骤1主要可以包括:
步骤a:用户选择的待移除目标区域即选择要移除的目标,根据用户所选择的待移除目标区域,将该区域的像素值调整为0,如图中所示的图像中的白色区域即为待移除目标区域;
步骤b:基于语义信息预测出最合适的边界框,该边界框即为前文中所描述的候选矩形框,最合适的边界框即为目标候选框;
步骤c:使用筛选出的最合适的边界框对预处理后的原始图像进行裁剪,得到包含待移除目标区域的待处理图像,并生成该待处理图像所对应的遮罩图像。
其中,基于语义信息的图像裁剪步骤,可参照前文中的相应描述,在此不再重复描述。
在得到待处理图像以及对应的遮罩图像后,即可将该待处理图像以及对应的遮罩图像输入到图像修复网络中,基于网络的输出得到修复后的图像部分,即图11中所示的修复结果。
若在基于语义信息对图像进行裁剪过程中,对裁剪后的图像进行了缩放,则得到图像修复网络的修复结果后,可以对修复结果进行超分辨率处理,得到图中所示的结果。
超分辨率处理的具体步骤,可参照前文中的相应描述,在此不再重复描述。
得到上述结果后,可以将该结果和原始图像中除去裁剪区域的图像进行拼接,得到拼接结果,完成目标移除(也可以称为目标修复)。
现有的图像修复网络主要存在修复后的图像含有“鱼鳞现象”的问题,以及待移除区域面积较大时不能完全修复的问题和模型大小过大问题。针对这些问题,本申请设计了特殊的针对图像修复的深度门卷积(即Depth- Gated Conv),以减少了图像修复结果含有“鱼鳞现象”的问题,解决了图像修复网络模型大的问题。
本示例中,以U-net为基础,可以将现有的U-net结构的编码部分(即编码网络)以及解码部分(即解码网络)的卷积结构采用深度门卷积实现,解决了在待移除目标区域面积较大时现有网络结构可能无法修复的问题以及模型过大的问题,并可以改善修复结果含有“鱼鳞现象”的问题。此外,在U-net的解码部分的上采样中可以通过加入随机噪音,进一步减少了修复结果含有“鱼鳞现象”的问题。
作为一可选方案,图12中示出了本申请实施例提供的一种图像修复网络的结构示意图,如图12中所示,该图像修复网络主要包括编码部分和解码部分,编码部分的下采样操作以及解码部分的上采样操作均可以采用深度门卷积结构实现。具体的,编码部分使用深度门卷积的操作实现下采样操作,根据输入的待处理图像和对应的遮罩图提取数据的高维特征。其中下采样操作(down sample)的下采样率是通过深度门卷积的卷积步长 (stride)实现的,如步长为2的深度门卷积每次下采样数据大小缩小一倍。解码部分可以使用深度门反卷积实现上采样操作,其中上采样操作可选用最近邻插值或者双线性插值上采样。之后,在上采样之后的输出层可以通过加入与输出图像像素大小一样的随机噪音数据,如随机高斯噪音,最终完成图像的修复。
如图12中所示,本示例中的编码部分包括依次级联的7个第一卷积模块和4个第二卷积模块,其中,本示例中,编码部分的各第二卷积模块的下采样率为1,最后一个第一卷积模块和各第二卷积模块所输出的融合特征图中只有最后一个第二卷积模块输出的融合特征图用于解码部分,解码部分包括依次级联的包括7个第一卷积模块,其中,第一卷积模块可以采用普通的卷积处理方式,也可以采用空洞卷积处理方式,各第一卷积模块可以基于本申请实施例所提供的融合特征提取方式,得到各层级的融合特征图,第二卷积模块则可以基于最后一个第一卷积模块所输出的融合特征图,采用空洞卷积处理方式,输出融合特征图,而解码部分即解码网络的各第一卷积模块,则可以基于编码部分的各第一卷积模块和各第二卷积模块所提取得到的各层级的融合特征图,通过卷积处理实现上采样操作,得到初步修复后的图像。具体的,本示例中,对于解码部分的各卷积模块,左侧的第一个卷积模块的输入为最后一个第二卷积模块的输出,除左侧的第一个卷积模块之外的解码部分的各卷积模块,其输入包括与该卷积模块对应的编码部分的卷积模块所输出的融合特征图,以及该卷积模块左侧的卷积模块的输出特征图。
可以理解的,图12中所示的图像修复网络结构只是一个可选的示意图,编码部分所输出的各卷积模块所输出的融合特征图中,具体哪些用于解码部分都是可以根据实际需求配置的,例如,对于图12中的结构,对于最后一个卷积模块和各第二卷积模块所输出的各特征图中,可以由多个用于解码部分,在各特征图的图像大小相同时,可以将这几个大小相同的特征图均作为解码网络中对应的卷积模块的输入,也可以分别设置与编码网络中用于提取这几个各特征图的卷积模块相应的解码部分的卷积模块,各特征图各自作为解码部分对应的卷积模块的输出。
为了得到更好的图像修复效果,可以生成与待处理图像大小相同的噪音图像(图中所示的噪音),基于噪音图像和初步修复后的图像,得到进一步修复后的图像,对于基于噪音图像进行进一步处理的方式,将在下文中详细描述。
图13中示出了本申请提供的另一可选的图像修复网络的结构示意图,如图中所示,该图像修复网络中的编码部分包括了依次级联的三个第一卷积模块和四个第二卷积模块(图中所示的空洞卷积部分),解码部分包括依次级联的三个第一卷积模块,其中,第一卷积模块可以采用普通的卷积处理方式,得到各层级的融合特征图,第二卷积模块则可以采用空洞卷积处理方式,提取各层级的融合特征图。而解码部分则可以基于第一卷积模块和第二卷积模块所提取得到的各层级的融合特征图,通过卷积处理实现上采样操作,得到初步修复后的图像(该图像即为包括图中所示的R、G、B三个通道图像的图像)。同样的,在得到初步修复后的图像之后,可以基于该图像和噪音图像,得到进一步修复后的图像(即图中所示的结果),将初步修复的图像和噪音图像进行融合时,可以通过图中所示的连接(Concat)层(也可以称为合并层)和卷积层(Conv2D)来进行融合。
可以理解的是,在实际应用中,空洞卷积处理方式和深度门卷积结构可以同时采用,也可以只在其中一个卷积模块中采用,也可以在多个卷积模块或全部卷积模块中均采用,如对于图12和13中所示的修复网络结构,可以是编码部分和解码部分的一个或多个或全部的第一卷积模块采用深度门卷积结构和/或采用空洞卷积处理方式。
作为一示例,图14中示出了图12或图13中所示的四个第二卷积模块即空洞卷积模块的结构示意图,其中,各空洞卷积模块可以是基于空洞卷积机制的深度门卷积,也可以是基于空洞卷积机制的现有门卷积结构。基于该结构,可以提取得到融合了待处理图像信息和遮罩图像信息的四个层级的融合特征图,其中,每一层级的空洞卷积结构的空洞率可以相同,也可以不同,本示例中,各层级的空洞率逐步增大,如图中所示,各层级的空洞率可以设置为2、4、8和16。通过采用空洞卷积处理方式,可以使提取得到的特征图中的每个元素点都能够提取到原图的特征信息,可以进一步提高最终的图像修复效果。
本申请实施例所提供的深度门卷积结构能够很大程度上解决图像修复结果中的“鱼鳞现象”的问题,但在实际一些场景中可能仍会出现“鱼鳞现象”,为了进一步避免该现象的出现,可以在基于图像修复网络得到修复后的图像之后,通过在修复后的图像中融入噪音图像,以破坏“鱼鳞现象”中出现的规则性的纹理,以起到进一步减少该现象的作用。
作为一示例,下面再结合图13对本申请实施例提供的一种图像处理方法的流程进行说明,如图中所示,该方法在通过图像修复网络(图中所示的编码部分和解码部分)完成待处理图像的初步修复后,在解码部分之后还增加了噪音图像融合的步骤,具体的,在解码部分的输出层可以加入与输出图像像素大小一样的随机噪音数据即图中所示的噪音图像,并将该噪音图像和解码输出的R、G、B三个通道的图像合并,之后通过卷积运算即可以达到破坏上述规则纹理的效果,得到效果更好的修复后的图像。
在得到修复后的图像之后,如果在图像裁剪处理时,对裁剪后的图像进行了缩放操作,则需要根据对应的缩放比例对图像进行超分辨处理,以得到与缩放前相同大小的图像,并将超分辨处理后的图像与原始图像中除裁剪区域之外的其他区域拼接,得到最终的完成目标移除的完整图像。如果未对裁剪后的图像进行缩放操作,则可以直接将修复后的图像与原始图像中除裁剪区域之外的其他区域拼接即可。
对于“鱼鳞现象”的问题,图15c、图15d和图15e中分别示出了基于现有的门卷积结构、现有的部分卷积结构、以及本申请实施例所提供的深度门卷积结构,对图15a中所示的图像进行目标移除后的效果示意图,其中,图15b为对图15a进行预处理后的图像,即图15b中白色区域所对应的图像区域即为待移除目标区域,该区域中的像素值经预处理后变为0。由图15c至图15e可以看出,基于现有门卷积结构的图像修复结果中存在很明显的“鱼鳞现象”,如图15c中黑色圆圈所对应的区域,基于部分卷积结构的图像修复结果(即图15d)与图15c相比,虽然有了较大改善,但还是存在一些“鱼鳞现象”,如图15d中黑色圆圈所对应的区域,而由图15e可以看出,基于本申请所提供的深度门卷积结构的图像修复结果中,已经不存在肉眼可见的“鱼鳞现象”,图像修复结果有了很大改善。
对于待移除目标区域的面积较大的场景,图16c、图16d和图16e中分别示出了基于现有的门卷积结构、现有的部分卷积结构、以及本申请实施例所提供的深度门卷积结构,对图16a中所示的图像进行目标移除后的效果示意图,其中,图16b为对图16a进行预处理后的图像,即图16b中白色区域所对应的图像区域即为待移除目标区域,该区域中的像素值经预处理后变为0。由图16c至图16e可以看出,现有技术的图像修复结果中存在较为明显的未修复区域和人工修复的痕迹,如图16c和图16d中的黑色圆圈所对应的区域,而基于本申请所提供的深度门卷积结构的图像修复结果中则比较自然,如图16e中所示,图像修复效果有了很大的提升。
对于本申请各可选实施例中所提供的图像修复网络,网络的训练方式本申请并不做限定。作为一可选的方案,为了更好的保证图像的修复效果,图像修复网络的训练可以采用生成式对抗网络架构,具体的,如图17a中所示,可以采用SN-GAN(SpectralNormalization for Generative Adversarial Networks,对抗性生成式网络的光谱标准化)结构,将图像修复网络作为生成网络,同图中的两种鉴别器(配对鉴别器(也可以称为局部鉴别器)和全局鉴别器)网络进行对抗训练,其中,全局鉴别器的输入同现有SN-GAN一致,而配对鉴别器的输入为一对图像,配对鉴别器和全局鉴别器是二分类网络,都是用于鉴别图像修复网络所生成的图像是否为原图像,相应的,鉴别器损失则反映了图像修复网络所生成的图像是否是原图像的一个概率,也就是生成的图像与原图像的差异。
对于本申请的方案而言,在采用SN-GAN的网络架构进行训练时,生成网络(即图像修复网络)和鉴别网络(即配对鉴别器或全局鉴别器)可以采用交替训练的方式,是一个互相不断迭代更新的过程,配对鉴别器和全局鉴别器可以分开训练。具体的,如在训练全局鉴别器时,可以固定图像修复网络的网络权重,在训练图像修复网络时,则固定全局鉴别器的网络权重,在全局鉴别器参与的训练过程中,配对鉴别器可以不参与训练,同样的,在训练配对鉴别器时,可以固定图像修复网络的网络权重,在训练图像修复网络时,则固定配对鉴别器的网络权重,在配对鉴别器参与的训练过程中,全局鉴别器可以不参与训练。
在训练时,将训练样本中的待修补的图像(对应待处理图像)和该图像的遮罩图像输入到图像修复网络进行前向传播得到生成的图像,将生成的图像输入到全局鉴别器得到全局鉴别器损失,同时将生成的图像和原图像(待修补图像对应的完整图像,即样本中不需要修补的完整图像)中只含有遮罩图内的图像数据输入到配对鉴别器得到配对鉴别器损失。
在实际应用中,具体选择哪些损失函数可以根据实际需求配置。作为一可选方案,图像修复损失可以使用现有的perception(感知域)损失、style(风格)损失、L1损失等,配对鉴别器损失和全局鉴别器损失可以使用现有的hinge loss(铰链损失)、或者交叉熵损失等。
训练生成网络(即图像修复网络)时,需要固定鉴别网络(配对鉴别器或全局鉴别器)的权重,这样可以获得到鉴别损失,鉴别损失反应的是生成的数据是真实数据的一个概率。在训练鉴别网络时,需要固定生成网络的权重,这样可以根据生成网路获取到负样本数据,该数据可以用于训练鉴别网络鉴别数据是生成的图像还是原始的图像的能力。
此外,在进行图像修复时,如果采用了前文中所描述的对目标图进行元素值交换和/或元素值调整的方案,在训练图像修复网络时,本申请实施例还提供了一种随机的全变差损失函数(RTV loss,random total variation loss),通过该函数得到RTV损失,用于更新图像修复网络的权重。RTV损失表征了进行元素值交换和/或元素值调整后的目标图与目标图所对应的原图(不包含需要进行修复的区域的原图)之间的差异,如目标图为图像修复网络输出的图像,则该损失表征了将图像修复网络输出的图像进行元素值交换和/或元素值调整后的图像与对应的原图像之间的差异。
以对图像修复网络输出的图进行元素值(即像素值)的随机交换为例, RTV损失函数的定义可以采用如下形式:
Figure BDA0002588162650000471
Figure BDA0002588162650000472
Figure BDA0002588162650000473
由公式可以看出,该示例中的RTV损失即RTVloss采用的基于L1损失的形式,可以理解的是,RTV损失的具体形式可以根据需要配置不同的形式,只要能够反映所要表征的物理意义即可。
其中,
Figure BDA0002588162650000474
为图像修复网络的输出结果(图中所示的生成的图像),其宽度和高度为
Figure BDA0002588162650000475
Figure BDA0002588162650000476
a和b为选定的裁剪宽度阈值,一般选择2(2个像素的宽度) 和1(1个像素的高度)。Inoise1为随机生成的宽度和高度为
Figure BDA0002588162650000477
Figure BDA0002588162650000478
的只含有0或者1数值的且同
Figure BDA0002588162650000479
具有相同通道的数据,即前文中所描述的第一权重图,⊙代表对应元素点乘,+和-为分别对应元素的加和减,I11表示元素值全为1、且宽度、高度和通道数均与Inoise1相同的图,即前文中所示描述的第二权重图。同理,
Figure BDA0002588162650000481
(进行第二次元素值交换和/或调整时所依据的图像,对应于图10d中的图像Y)的宽度和高度为
Figure BDA0002588162650000482
Figure BDA0002588162650000483
c和d为选定的裁剪阈值,一般为0和1(1个像素的宽度),Inois为与
Figure BDA0002588162650000484
对应的第一权重图,I12表示元素值全为1、且宽度、高度和通道数均与Ino相同的图,Ioutput为完成元素值交换后的图像,Ioutput的图像宽度和高度则分别为
Figure BDA0002588162650000485
Figure BDA0002588162650000486
公式中的Icomp′和Ipos可以分别表示Ioutput和对原图进行相应裁剪后的图像,如记移除遮罩区域的原图(样本中的原图像)为X,其宽度和高度与待修补的图像相同,即为
Figure BDA0002588162650000487
Figure BDA0002588162650000488
可以在图像X中宽度按照
Figure BDA0002588162650000489
高度按
Figure BDA00025881626500004810
或者宽度按照
Figure BDA00025881626500004811
高度按照
Figure BDA00025881626500004812
或者其他形式裁剪得到大小与Ioutput相同的图像Ipos
Figure BDA00025881626500004813
为Ipos中元素点的个数。RTVloss则为Icomp′与Ipos中所有相同位置的元素点的元素值的差值的绝对值之和与
Figure BDA00025881626500004814
的比值。
公式中的Icomp′和Ipos还可以分别表示将Ioutput进行图像补全后的图像和原图,即Ipos表示原图像,Icomp′为将经过元素值交换处理后的图像进行补全后的图像,其中,需要补全的数据可以是在图像X中宽度按照
Figure BDA00025881626500004815
高度按
Figure BDA00025881626500004816
或者宽度按照
Figure BDA00025881626500004817
高度按照
Figure BDA00025881626500004818
或者其他形式裁剪得到补全数据Icrop,即将原图中裁剪后除了与Ioutput大小相同的图像之外的部分作为Icrop,由Icrop和Ioutput拼接得到Icomp′,此时,
Figure BDA00025881626500004819
则为原图像中元素点的个数。
在进行训练时,可以将拼接的图像、原图像和生成的图像输入到VGG (VisualGeometry Group,视觉几何组)网络中,通过提取VGG网络中不同层的特征图计算得到perception损失和style损失。L1损失是生成的图像减去原图像的绝对值再除以像素点的个数得到。配对鉴别器和全局鉴别器是将生成的图像输入到配对鉴别器和全局鉴别器,这两种鉴别器的输出即是配对鉴别器损失和全局鉴别器损失。可以理解的是,以上这些损失只在训练生成网络时候的时候使用。
作为一可选方案,在对图像修复网络进行训练时,图像修复网络的整体损失函数可以如下:
Figure BDA0002588162650000491
作为另一可选方案,图像修复网络的整体损失函数可以如下:
Figure BDA0002588162650000492
其中,上述两个表达式中,
Figure BDA0002588162650000493
表示整体损失函数,
Figure BDA0002588162650000494
表示perception 损失,
Figure BDA0002588162650000495
表示风格损失,
Figure BDA0002588162650000496
表示L1损失,
Figure BDA0002588162650000497
表示全局鉴别器损失,
Figure BDA0002588162650000498
表示配对鉴别器损失,
Figure BDA0002588162650000499
表示RTV损失,λ1至λ6分别表示各个损失的权重比例。对于图像修复网络的训练过程可参见前文中的描述。
作为一可方案:
Figure BDA00025881626500004910
Figure BDA00025881626500004911
其中,DG(Ioutput)表示在训练图像修复网络时,全局鉴别器的输出特征图,全局鉴别器的输入为图像修复网络的输出图像和对应的原图像,Ε[DG(Ioutput)]表示对输出特征图中各元素的元素值进行加和求平均;同样的, Dpair(Ioutput,Igt_mask_region)表示配对鉴别器的输出特征图,配对鉴别器的输入如为前文所描述的两个图像对,即图像修复网络的输出图像和原图中只包含遮罩区域的图像(Igt_mask_regi),以及原图和图像修复网络的输出图像所对应的原图像中只包含遮罩区域的图像。
作为一示例,图17b中示出了一种对图像修复网络进行训练时的原理示意图,该示例中进行图像元素值交换(图中所示的随机交换局部区域的数值) 的步骤是作为了图像修复网络中的一部分,如图中所示,该示例中该处理是在放在了解码部分的上采样处理之后,即得到初步修复后的图像之后,解码部分包括了依次级联的深度门卷积结构、局部区域元素值随机交换卷积层 (Randomly exchange local value,REL conv)和最后的用于平滑处理的卷积层,其中,REL conv即用于进行元素值随机处理的结构。在对图像修复网络进行训练时,固定全局鉴别器和配对鉴别器的损失,样本中的待修复图像和对应的遮罩图像输入至图像修复网络,图像修复网络所输出的图像(图中所示的生成的图像)和遮罩区域图像(图中所示的只取遮罩图区域内图像数据的图像)作为一对输入图,原图和该遮罩区域图像作为另一对输入图输入至配对鉴别器,图像修复网络所输出的图像和对应的原图像输入至全局鉴别器,基于上述图像修复网络的整体损失函数
Figure BDA0002588162650000501
进行该网络的训练,直至损失函数收敛。
在训练全局鉴别器时,固定图像修复网络的权重,将待修补的图像和对应的遮罩图像输入到图像修复网络进行前向传播得到生成的图像,并将该图像作为负样本,将原图像作为正样本,使用全局鉴别器损失函数(如hinge损失函数),更新全局鉴别器的网络权重。
作为一可选方案,在训练全局鉴别器时,全局鉴别器的损失函数可以表示为:
Figure BDA0002588162650000502
其中,
Figure BDA0002588162650000503
为全局鉴别器的损失函数,Dglobal(Igt)表示原图经过全局鉴别器处理后的归一化的特征图,Dglobal(Ioutput)表示图像修复网络的输出图像经过全局鉴别器处理后所输出的归一化处理的特征图,1表示与原图像大小相同的元素值全为1的图像,公式中的-、+分别表示对应的元素点的值的减和加,Ε对所有元素点的元素值相加后求均值。
同样的,在训练配对鉴别器时,固定图像修复网络的权重,将待修补的图像和遮罩图像输入到图像修复网络进行前向传播得到生成的图像。将原图像遮罩内的图像和原图像这一对数据作为正样例,将原图像遮罩内的图像和生成的图像这一对数据作为负样例,使用配对鉴别器损失函数(如hinge损失函数),更新配对鉴别器的网络权重。在完成整个网络架构的训练后所得到的图像修复网络即可以作为实际图像修复应用中的修复网络。
作为一可选方案,在训练配对鉴别器时,配对鉴别器的损失函数可以表示为
Figure BDA0002588162650000511
其中,
Figure BDA0002588162650000512
为配对鉴别器的损失函数,
Figure BDA0002588162650000513
表示原图和遮罩区域图像这一对图像经过全局鉴别器处理后的归一化的特征图, Dpair(Ioutput,Igt_mask_region)表示图像修复网络的输出图像和遮罩区域图像这一对图像经过全局鉴别器处理后所输出的归一化处理的特征图,1表示与原图像大小相同的元素值全为1的图像,公式中的-、+分别表示对应的元素点的值的减和加,Ε对所有元素点的元素值相加后求均值。
基于与本申请实施例所提供的图像处理方法相同的原理,本申请实施例还提供了一种图像处理装置,如图18中所示,该图像处理装置100可以包括图像获取模块110、遮罩图像生成模块120和图像修复模块130,其中:
图像获取模块110,用于获取包含待移除目标区域的待处理图像;
遮罩图像生成模块120,用于生成待处理图像的遮罩图像;
图像修复模块130,用于根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像。
可选的,图像修复模块130可以具体用于:
根据待处理图像和遮罩图像,通过编码网络,提取待处理图像对应的融合特征图;
基于融合特征图,通过解码网络,对待处理图像中的待移除目标区域进行修复,得到修复后的图像。
可选的,编码网络和解码网络分别包括至少一个第一卷积模块;
其中,各第一卷积模块根据输入的融合特征图,进行卷积处理,并输出卷积处理得到的融合特征图。
可选的,编码网络还包括与编码网络的最后一个第一卷积模块级联的至少一个第二卷积模块;
其中,第二卷积模块根据输入的融合特征图,采用空洞卷积处理方式进行卷积处理,并输出卷积处理后得到的融合特征图。
可选的,若第二卷积模块的数量为至少两个,则各第二卷积模块依次级联,至少两个第二卷积模块的卷积参数不同。
可选的,各卷积模块中的至少一个卷积模块根据输入的融合特征图,进行卷积处理,并输出卷积处理得到的融合特征图时,可以具体用于:
根据输入的融合特征图,进行第一卷积处理,提取对应的图像特征图;
基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图,其中,每个通道的遮罩特征图是基于输入的融合特征图中的至少一个通道的特征图得到的,至少一个通道的通道数量小于第一通道数量;
将图像特征图和遮罩特征图进行融合并输出。
可选的,卷积模块还用于:在基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图之前,若第一通道数量不等于第二通道数量,则将输入的融合特征图转换为第二通道数量的融合特征图;
相应的,卷积模块在基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图时,具体用于:
基于转换后的第二通道数量的融合特征图中每个通道的特征图,分别进行第二卷积处理,提取得到每个通道对应的遮罩特征图。
可选的,卷积模块在基于输入的融合特征图中的至少一个通道的特征图得到一个通道的遮罩特征图时,具体用于:
基于输入的融合特征图中的至少一个通道的特征图,分别按照至少两种卷积处理参数进行处理,提取对应于至少两种感受野的特征图,并将所提取的对应于至少两种感受野的特征图融合,得到一个通道的遮罩特征图。
可选的,图像修改模块130在根据待处理图像和遮罩图像,对待处理图像中的待移除目标区域进行修复,得到修复后的图像时,可以具体用于:
基于待处理图像和遮罩图像,得到初步修复后的图像;
生成与待处理图像大小相同的噪音图像;
基于初步修复后的图像和噪音图像,得到修复后的图像。
可选的,图像修复模块130还可以用于对目标图进行以下至少一项的处理:
对目标图中邻近位置的元素点的元素值进行随机交换;
对目标图中元素点的元素值进行随机调整;
其中,目标图为至少一个融合特征图和/或通过解码网络得到的修复后的图像。
可选的,图像修复模块130在对目标图中邻近位置的元素点的元素值进行随机交换时,可以具体用于:
对目标图执行至少一次以下处理,并基于至少一次处理后的图得到与目标图大小相同的处理后的目标图:
对目标图分别进行第一边缘裁剪和第二边缘裁剪,得到第一裁剪图和第二裁剪图;
生成第一裁剪图所对应的第一权重图和第二裁剪图的第二权重图,其中,第一权重图和第二权重图中元素点的元素值为1或0,且第一权重图和第二权重图中相同位置的元素点的元素值不同;
基于第一权重图和第二权重图,对第一裁剪图和第二裁剪图进行融合,得到处理后的图。
可选的,图像修复模块130在对目标图中元素点的元素值进行随机调整时,可以具体用于:
对目标图执行至少一次以下处理,并基于至少一次处理后的图得到与目标图大小相同的处理后的目标图:
对目标图分别进行第三边缘裁剪和第四边缘裁剪,得到第三裁剪图和第四裁剪图;
基于第三裁剪图进行特征提取,得到第四裁剪图的调整系数;
基于调整系数对第四裁剪图中元素点的元素值进行调整,得到处理后的图像。
可选的,图像处理模块在进行卷积处理时,对于至少一次卷积处理中的至少一次卷积计算可以采用以下方式进行:
将该次卷积计算所对应的待卷积区域中的至少两个元素值进行随机交换,和/或,将该次卷积计算的至少两个卷积参数进行随机交换;
基于随机交换后的待卷积区域的元素值和卷积参数进行卷积计算。
可选的,图像修复模块在进行卷积处理时,至少一次卷积处理可以采用以下方式进行:
通过编码器提取输入特征图的图像特征,并通过解码器对提取的图像特征进行解码得到新的特征图;
将新的特征图和所述输入特征图进行元素值融合,基于融合后的特征图得到输出特征图。
可选的,图像获取模块110在获取包含待移除目标区域的待处理图像时,可以具体用于:
获取包含待移除目标区域的原始图像;
提取原始图像的图像特征;
基于原始图像的图像特征,对原始图像进行裁剪,得到包含待移除目标区域的待处理图像。
可选的,图像获取模块110在基于原始图像的图像特征,对原始图像进行裁剪,得到包含待移除目标区域的待处理图像时,可以具体用于:
基于原始图像的图像特征,确定原始图像中包含待移除目标区域的各候选区域;
从各候选区域中筛选出目标区域;
根据筛选出的目标区域对原始图像进行裁剪,得到包含待移除目标区域的待处理图像。
可选的,图像获取模块在基于原始图像的图像特征,确定原始图像中包含待移除目标区域的各候选区域时,具体用于:
确定待移除目标区域的区域大小;
若区域大小不大于设定阈值,则根据原始图像的图像特征、以及待移除目标区域在原始图像中的位置信息,得到第一设定区域大小的各候选区域;
若区域大小大于设定阈值,则根据原始图像的图像特征、以及待移除目标区域在原始图像中的位置信息,得到第二设定区域大小的各候选区域。
可选的,图像获取模块可以具体用于:
在筛选出的目标区域为第二设定区域大小的候选区域时,根据筛选出的目标区域对原始图像进行裁剪,得到第二设定区域大小的裁剪图像;
按照第一设定区域大小对裁剪图像进行缩放,得到包含待移除目标区域的待处理图像。
可选的,图像修复模块还用于:
在得到修复后的图像之后,基于对裁剪图像进行缩放时的缩放比例,对修复后的图像进行相应的缩放处理,得到第二设定区域大小的修复后的图像;
将经过缩放处理后的修复后的图像与原始图像进行融合处理,得到原始图像对应的修复后的图像。
可选的,图像获取模块还可以用于:将待处理图像归一化到固定尺寸或者固定长宽比;或者,将待处理图像补齐为固定尺寸或者固定长宽比。
可以理解的是,本申请实施例的所提供的图像处理装置的各模块,可以具有实现本申请实施例所提供的图像处理方法中的相应步骤的功能。其中,该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。上述各模块可以是软件和/或硬件,各模块可以单独实现,也可以多个模块集成实现。对于图像处理装置的各模块的功能描述具体可以参见上述各实施例中的图像处理方法中的相应描述,在此不再赘述。
基于与本申请实施例所提供的图像处理方法相同的原理,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器;其中,存储器中存储有计算机程序;处理器用于在运行计算机程序时执行本申请任一可选实施例中所示的方法。
本申请实施例还提供了一种计算机可读存储介质,该存储介质上用于存储计算机程序,该计算机程序在被处理执行时用于执行本申请任一可选实施例中所示的方法。图19中示出了本申请实施例所适用的一种电子设备的结构示意图,如图19所示,该电子设备4000主要可以包括处理器 4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC (Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或 EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图19中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器 4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请所提供的实施例中,由电子设备执行的上述图像处理方法可以使用人工智能模型来执行。
根据本申请的实施例,在电子设备中的图像处理方法中,用于增强图像质量的该处理方法可以通过使用图像数据作为人工智能模型的输入数据来获得识别图像或图像中的图像内容特征的输出数据。人工智能模型可以通过训练获得。这里,“通过训练获得”意味着通过训练算法用多条训练数据训练基本人工智能模型来获得被配置成执行期望特征(或目的)的预定义操作规则或人工智能模型。人工智能模型可以包括多个神经网络层。多个神经网络层中的每一层包括多个权重值,并且通过在前一层的计算结果与多个权重值之间的计算来执行神经网络计算。
视觉理解是一种用于像人类视觉一样识别和处理事物的技术,并且包括例如对象识别、对象跟踪、图像检索、人类识别、场景识别、3D重建/ 定位或图像增强。
本申请所提供的实施例中,可以通过AI模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。
该处理器可以包括一个或多个处理器。此时,该一个或多个处理器可以是通用处理器,(例如中央处理单元(CPU)、应用处理器(AP)等)、或者是纯图形处理单元(,例如,图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器(,例如,神经处理单元(NPU))。
该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。
这里,通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行,和/或可以通过单独的服务器/系统来实现。
该AI模型可以由包含多个神经网络层组成。每一层具有多个权重值,一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。
学习算法是一种使用多个学习数据训练预定目标装置(例如,机器人) 以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (20)

1.一种图像处理方法,其特征在于,包括:
获取包含待移除目标区域的待处理图像;
生成所述待处理图像的遮罩图像;
根据所述待处理图像和所述遮罩图像,对所述待处理图像中的待移除目标区域进行修复,得到修复后的图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理图像和所述遮罩图像,对所述待处理图像中的待移除目标区域进行修复,包括:
根据所述待处理图像和所述遮罩图像,通过编码网络,提取所述待处理图像对应的融合特征图;
基于所述融合特征图,通过解码网络,对所述待处理图像中的待移除目标区域进行修复,得到修复后的图像。
3.根据权利要求2所述的方法,其特征在于,所述编码网络和所述解码网络分别包括至少一个第一卷积模块;
其中,各第一卷积模块根据输入的融合特征图,进行卷积处理,并输出卷积处理得到的融合特征图。
4.根据权利要求3所述的方法,其特征在于,所述编码网络还包括与所述编码网络的最后一个第一卷积模块级联的至少一个第二卷积模块;
其中,所述第二卷积模块根据输入的融合特征图,采用空洞卷积处理方式进行卷积处理,并输出卷积处理后得到的融合特征图。
5.根据权利要求4所述的方法,其特征在于,若所述第二卷积模块的数量为至少两个,则各第二卷积模块依次级联,至少两个第二卷积模块的卷积参数不同。
6.根据权利要求3至5中任一项所述的方法,其特征在于,各卷积模块中的至少一个卷积模块根据输入的融合特征图,进行卷积处理,并输出卷积处理得到的融合特征图,包括:
根据输入的融合特征图,进行第一卷积处理,提取对应的图像特征图;
基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图,其中,每个通道的遮罩特征图是基于输入的融合特征图中的至少一个通道的特征图得到的,所述至少一个通道的通道数量小于所述第一通道数量;
将所述图像特征图和遮罩特征图进行融合并输出。
7.根据权利要求6所述的方法,其特征在于,基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图之前,还包括:
若所述第一通道数量不等于所述第二通道数量,则将输入的融合特征图转换为第二通道数量的融合特征图;
基于输入的第一通道数量的融合特征图,进行第二卷积处理,提取得到第二通道数量的遮罩特征图,包括:
基于转换后的第二通道数量的融合特征图中每个通道的特征图,分别进行第二卷积处理,提取得到每个通道对应的遮罩特征图。
8.根据权利要求6所述的方法,其特征在于,基于输入的融合特征图中的至少一个通道的特征图得到一个通道的遮罩特征图,包括:
基于输入的融合特征图中的至少一个通道的特征图,分别按照至少两种卷积处理参数进行处理,提取对应于至少两种感受野的特征图,并将所提取的对应于至少两种感受野的特征图融合,得到一个通道的遮罩特征图。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述根据所述待处理图像和所述遮罩图像,对所述待处理图像中的待移除目标区域进行修复,得到修复后的图像,包括:
基于所述待处理图像和所述遮罩图像,得到初步修复后的图像;
生成与所述待处理图像大小相同的噪音图像;
基于所述初步修复后的图像和所述噪音图像,得到修复后的图像。
10.根据权利要求2至8中任一项所述的方法,其特征在于,所述方法还包括对目标图进行以下至少一项的处理:
对目标图中邻近位置的元素点的元素值进行随机交换;
对目标图中元素点的元素值进行随机调整;
其中,所述目标图为至少一个融合特征图和/或通过解码网络得到的修复后的图像。
11.根据权利要求10所述的方法,其特征在于,所述对目标图中邻近位置的元素点的元素值进行随机交换,包括:
对所述目标图执行至少一次以下处理,得到与所述目标图大小相同的处理后的目标图:
对目标图分别进行第一边缘裁剪和第二边缘裁剪,得到第一裁剪图和第二裁剪图;
生成所述第一裁剪图所对应的第一权重图和所述第二裁剪图的第二权重图,其中,所述第一权重图和所述第二权重图中元素点的元素值为1或0,且所述第一权重图和所述第二权重图中相同位置的元素点的元素值不同;
基于所述第一权重图和所述第二权重图,对所述第一裁剪图和所述第二裁剪图进行融合,得到处理后的图。
12.根据权利要求10所述的方法,其特征在于,所述对目标图中元素点的元素值进行随机调整,包括:
对所述目标图执行至少一次以下处理,得到与所述目标图大小相同的处理后的目标图:
对目标图分别进行第三边缘裁剪和第四边缘裁剪,得到第三裁剪图和第四裁剪图;
基于所述第三裁剪图进行特征提取,得到所述第四裁剪图的调整系数;
基于所述调整系数对所述第四裁剪图中元素点的元素值进行调整,得到处理后的图像。
13.根据权利要求3至8中任一项所述的方法,其特征在于,在进行卷积处理时,对于至少一次卷积处理中的至少一次卷积计算采用以下方式进行:
将该次卷积计算所对应的待卷积区域中的至少两个元素值进行随机交换,和/或,将该次卷积计算的至少两个卷积参数进行随机交换;
基于随机交换后的待卷积区域的元素值和卷积参数进行卷积计算。
14.根据权利要求3至8中任一项所述的方法,其特征在于,在进行卷积处理时,至少一次卷积处理采用以下方式进行:
通过编码器提取输入特征图的图像特征,并通过解码器对提取的图像特征进行解码得到新的特征图;
将所述新的特征图和所述输入特征图进行元素值融合,基于融合后的特征图得到输出特征图。
15.根据权利要求1至14中任一项所述的方法,其特征在于,所述获取包含待移除目标区域的待处理图像,包括:
获取包含所述待移除目标区域的原始图像;
提取所述原始图像的图像特征;
基于所述原始图像的图像特征,对所述原始图像进行裁剪,得到所述包含待移除目标区域的待处理图像。
16.根据权利要求15所述的方法,其特征在于,基于所述原始图像的图像特征,对所述原始图像进行裁剪,得到所述包含待移除目标区域的待处理图像,包括:
基于所述原始图像的图像特征,确定所述原始图像中包含所述待移除目标区域的各候选区域;
从所述各候选区域中筛选出目标区域;
根据筛选出的目标区域对所述原始图像进行裁剪,得到所述包含待移除目标区域的待处理图像。
17.根据权利要求16所述的方法,其特征在于,基于所述原始图像的图像特征,确定所述原始图像中包含所述待移除目标区域的各候选区域,包括:
确定所述待移除目标区域的区域大小;
若所述区域大小不大于设定阈值,则根据所述原始图像的图像特征、以及所述待移除目标区域在所述原始图像中的位置信息,得到第一设定区域大小的各候选区域;
若所述区域大小大于所述设定阈值,则根据所述原始图像的图像特征、以及所述待移除目标区域在所述原始图像中的位置信息,得到第二设定区域大小的各候选区域。
18.根据权利要求1至17中任一项所述的方法,其特征在于,还包括:
将所述待处理图像归一化到固定尺寸或者固定长宽比;
或者,
将所述待处理图像补齐为固定尺寸或者固定长宽比。
19.一种图像处理装置,其特征在于,包括:
图像获取模块,用于获取包含待移除目标区域的待处理图像;
遮罩图像生成模块,用于生成所述待处理图像的遮罩图像;
图像修复模块,用于根据所述待处理图像和所述遮罩图像,对所述待处理图像中的待移除目标区域进行修复,得到修复后的图像。
20.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器中存储有计算机程序;
所述处理器,用于在运行所述计算机程序时执行权利要求1至18中任一项所述的方法。
CN202010687655.6A 2019-10-25 2020-07-16 图像处理方法、装置、电子设备及计算机可读存储介质 Pending CN112712472A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
CN201911024819 2019-10-25
CN2019110248190 2019-10-25
CN2019111151370 2019-11-14
CN201911115137 2019-11-14
CN202010418496 2020-05-15
CN202010418496X 2020-05-15

Publications (1)

Publication Number Publication Date
CN112712472A true CN112712472A (zh) 2021-04-27

Family

ID=75541286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010687655.6A Pending CN112712472A (zh) 2019-10-25 2020-07-16 图像处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112712472A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344807A (zh) * 2021-05-26 2021-09-03 商汤集团有限公司 图像修复方法及装置、电子设备及存储介质
CN113793286A (zh) * 2021-11-18 2021-12-14 成都索贝数码科技股份有限公司 一种基于多阶注意力神经网络的媒体图像水印移除方法
CN114187547A (zh) * 2021-12-03 2022-03-15 南京硅基智能科技有限公司 目标视频的输出方法及装置、存储介质及电子装置
CN114418897A (zh) * 2022-03-10 2022-04-29 深圳市一心视觉科技有限公司 眼部光斑图像的修复方法、装置、终端设备及存储介质
CN114612479A (zh) * 2022-02-09 2022-06-10 苏州大学 一种基于全局与局部特征重建网络的医学图像分割方法
CN114926555A (zh) * 2022-03-25 2022-08-19 江苏预立新能源科技有限公司 一种安防监控设备数据智能压缩方法与系统
CN116402691A (zh) * 2023-06-05 2023-07-07 四川轻化工大学 基于图像特征快速拼接的图像超分辨率方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344807A (zh) * 2021-05-26 2021-09-03 商汤集团有限公司 图像修复方法及装置、电子设备及存储介质
CN113793286A (zh) * 2021-11-18 2021-12-14 成都索贝数码科技股份有限公司 一种基于多阶注意力神经网络的媒体图像水印移除方法
CN114187547A (zh) * 2021-12-03 2022-03-15 南京硅基智能科技有限公司 目标视频的输出方法及装置、存储介质及电子装置
CN114612479A (zh) * 2022-02-09 2022-06-10 苏州大学 一种基于全局与局部特征重建网络的医学图像分割方法
CN114418897A (zh) * 2022-03-10 2022-04-29 深圳市一心视觉科技有限公司 眼部光斑图像的修复方法、装置、终端设备及存储介质
CN114926555A (zh) * 2022-03-25 2022-08-19 江苏预立新能源科技有限公司 一种安防监控设备数据智能压缩方法与系统
CN114926555B (zh) * 2022-03-25 2023-10-24 江苏预立新能源科技有限公司 一种安防监控设备数据智能压缩方法与系统
CN116402691A (zh) * 2023-06-05 2023-07-07 四川轻化工大学 基于图像特征快速拼接的图像超分辨率方法和系统
CN116402691B (zh) * 2023-06-05 2023-08-04 四川轻化工大学 基于图像特征快速拼接的图像超分辨率方法和系统

Similar Documents

Publication Publication Date Title
KR102640237B1 (ko) 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체
CN112712472A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Jaritz et al. Sparse and dense data with cnns: Depth completion and semantic segmentation
Zheng et al. Ultra-high-definition image dehazing via multi-guided bilateral learning
Zhang et al. Multi-scale single image dehazing using perceptual pyramid deep network
CN111798400B (zh) 基于生成对抗网络的无参考低光照图像增强方法及系统
CN112232349B (zh) 模型训练方法、图像分割方法及装置
CN111784602B (zh) 一种生成对抗网络用于图像修复的方法
US20230080693A1 (en) Image processing method, electronic device and readable storage medium
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
CN112184585B (zh) 一种基于语义边缘融合的图像补全方法及系统
CN113674159A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN110675339A (zh) 基于边缘修复和内容修复的图像修复方法及系统
CN111915627A (zh) 语义分割方法、网络、设备及计算机存储介质
Gao et al. Single image dehazing via self-constructing image fusion
CN112541877B (zh) 基于条件生成对抗网络的去模糊方法、系统、设备及介质
KR102311796B1 (ko) 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치
CN113807334B (zh) 一种基于残差网络的多尺度特征融合的人群密度估计方法
CN114511576B (zh) 尺度自适应特征增强深度神经网络的图像分割方法与系统
CA3137297C (en) Adaptive convolutions in neural networks
CN111899169B (zh) 一种基于语义分割的人脸图像的分割网络的方法
Ye et al. Depth super-resolution with deep edge-inference network and edge-guided depth filling
Rivadeneira et al. Thermal image super-resolution challenge-pbvs 2021
CN114037640A (zh) 图像生成方法及装置
Song et al. CarvingNet: content-guided seam carving using deep convolution neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination