CN112102200B - 图像补全模型初始化方法、训练方法和图像补全方法 - Google Patents
图像补全模型初始化方法、训练方法和图像补全方法 Download PDFInfo
- Publication number
- CN112102200B CN112102200B CN202010994787.3A CN202010994787A CN112102200B CN 112102200 B CN112102200 B CN 112102200B CN 202010994787 A CN202010994787 A CN 202010994787A CN 112102200 B CN112102200 B CN 112102200B
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- convolution kernel
- complemented
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 59
- 230000000295 complement effect Effects 0.000 title claims description 26
- 238000011423 initialization method Methods 0.000 title abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 81
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 239000002131 composite material Substances 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000009827 uniform distribution Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 17
- 238000007781 pre-processing Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 238000003062 neural network model Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 8
- 230000002829 reductive effect Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 230000002411 adverse Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
公开了对用于图像补全的卷积神经网络模型进行初始化和/或训练的方法、图像补全方法、用于图像补全的卷积神经网络模型初始化装置和计算机可读存储介质。该初始化方法包括:将卷积神经网络中的特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与待补全图像关联掩膜相对应的卷积核第二部分。卷积核第一部分用于对待补全图像进行特征提取以生成图像特征,卷积核第二部分用于对掩膜进行特征提取以生成掩膜特征。对卷积核第一部分中的各个元素进行随机初始化,和将卷积核第二部分中的元素中的每一个分别设置为相应初始值。
Description
技术领域
本发明涉及图像处理技术领域,并且特别地涉及对用于图像补全的卷积神经网络模型初始化方法、对用于图像补全的卷积神经网络模型进行训练的方法、图像补全方法、用于图像补全的卷积神经网络模型初始化装置、计算设备和计算机可读存储介质。
背景技术
图像处理是计算机视觉领域的一个分支。图像补全是图像处理领域的热点问题之一。图像补全可以用于弥补缺失的区域或者移除不期望的区域,在动态图像和静态图像的场景中有着广泛的应用,例如,用于获得超高分辨率、用于修复破损的照片、用于去除视频或图像中的水印,甚至可以用于在人脸部分遮挡的情况下的人脸识别等。如何获得拥有下列优点中的至少一个的图像补全方法是亟待解决的技术问题:补全效果接近原始内容,方法简单耗费计算资源少,适用范围广,运行速度快,以及出错率低等。
发明内容
本公开提供了一种可以缓解、减轻或甚至消除上述问题中的一个或多个的对用于图像补全的卷积神经网络模型初始化方法、对用于图像补全的卷积神经网络模型进行训练的方法、图像补全方法、用于图像补全的卷积神经网络模型初始化装置、计算设备和计算机可读存储介质。
根据本发明的一个方面,提供了一种对用于图像补全的卷积神经网络模型进行初始化的方法。该方法包括:将卷积神经网络中的特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与待补全图像关联掩膜相对应的卷积核第二部分,卷积核第一部分用于对待补全图像进行特征提取以生成图像特征,卷积核第二部分用于对掩膜进行特征提取以生成掩膜特征;对卷积核第一部分中的各个元素进行随机初始化,和将卷积核第二部分中的元素中的每一个分别设置为相应初始值。其中,待补全图像包括缺失区域,掩膜包括与待补全图像的缺失区域相同的缺失区域;和其中,初始值被设置成使得掩膜特征中对应于缺失区域的各个元素都不小于预定最大值或不大于预定最小值,预定最大值或预定最小值的绝对值不小于图像特征中各个元素的绝对值的最大值。
在一些实施例中,对卷积核第一部分中的各个元素进行随机初始化包括:对卷积核第一部分中的各个元素进行高斯分布初始化或对卷积核第一部分中的各个元素进行均匀分布初始化。
在一些实施例中,掩膜基于待补全图像确定,掩膜经受二值化处理,掩膜中与掩膜非缺失区域对应的值被赋值为第一值,以及与缺失区域对应的值被赋值为第二值。
在一些实施例中,将卷积核第二部分中的元素中的每一个分别设置为相应初始值包括:将初始值被设置为大于预定最大值或小于预定最小值,预定最大值或预定最小值的绝对值大于预定阈值,预定阈值为下列之一:卷积核第一部分中的各个元素的绝对值的最大值的1倍,2倍,5倍,10倍,100倍,1000倍,或10000倍。
根据本发明的另一个方面,提供了一种对用于图像补全的卷积神经网络模型进行训练的方法。该方法包括:将卷积神经网络中的特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与待补全图像关联掩膜相对应的卷积核第二部分,卷积核第一部分用于对待补全图像进行特征提取以生成图像特征,卷积核第二部分用于对掩膜进行特征提取以生成掩膜特征;对卷积核第一部分中的各个元素进行随机初始化,和将卷积核第二部分中的元素中的每一个分别设置为相应初始值,接收训练数据集,训练数据集包括与待补全图像对应的原始图像以及样本对,样本对包括待补全图像和待补全图像关联掩膜;和基于原始图像和样本对来对卷积神经网络模型进行训练。其中待补全图像包括缺失区域,掩膜包括与待补全图像的缺失区域相同的缺失区域;和其中,初始值被设置成使得掩膜特征中对应于缺失区域的各个元素都不小于预定最大值或不大于预定最小值,预定最大值或预定最小值的绝对值不小于图像特征中各个元素的绝对值的最大值。
在一些实施例中,对卷积核第一部分中的各个元素进行随机初始化包括:对卷积核第一部分中的各个元素进行高斯分布初始化或对卷积核第一部分中的各个元素进行均匀分布初始化。
在一些实施例中,掩膜基于待补全图像确定,掩膜经受二值化处理,掩膜中与掩膜非缺失区域对应的值被赋值为第一值,以及与缺失区域对应的值被赋值为第二值。
在一些实施例中,其中基于原始图像和样本对来对卷积神经网络模型进行训练包括:对待补全图像和掩膜进行特征提取,以得到图像特征和掩膜特征;基于图像特征和掩膜特征确定合成图像;和对合成图像进行非线性变换得到变换合成图像。其中变换合成图像中与缺失区域对应的区域的像素值为0。
在一些实施例中,基于图像特征和掩膜特征确定合成图像包括:将图像特征的值矩阵和掩膜特征的值矩阵相加,以得到合成图像的像素值矩阵。
在一些实施例中,对合成图像进行非线性变换得到变换合成图像包括:利用ReLU函数处理合成图像,使得变换合成图像中小于0的像素值被赋值为0。
在一些实施例中,基于原始图像和样本对来对卷积神经网络模型进行训练包括:将样本对中待补全图像进行高低频分离处理,得到待处理图像的高频分量和待处理图像的低频分量;和基于原始图像、待处理图像的高频分量和待补全图像关联掩膜来对卷积神经网络模型进行训练。
根据本发明的另一个方面,提供了一种图像补全方法,包括:获取待补全图像和待补全图像关联掩膜;和将待补全图像和待补全图像关联掩膜输入根据本发明第二方面的训练方法得到的经训练卷积神经网络模型,以得到补全图像。
根据本发明的另一个方面,提供了一种用于图像补全的卷积神经网络模型初始化装置。装置包括:卷积核设置模块,其配置成将卷积神经网络中的特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与待补全图像关联掩膜相对应的卷积核第二部分,卷积核第一部分用于对待补全图像进行特征提取以生成图像特征,卷积核第二部分用于对掩膜进行特征提取以生成掩膜特征;第一卷积核配置模块,其配置成对卷积核第一部分中的各个元素进行随机初始化;和第二卷积核配置模块,其配置成将卷积核第二部分中的元素中的每一个分别设置为相应初始值,其中,待补全图像包括缺失区域,掩膜包括与待补全图像的缺失区域相同的缺失区域;和其中,初始值被设置成使得掩膜特征中对应于缺失区域的各个元素都不小于预定最大值或不大于预定最小值,预定最大值或预定最小值的绝对值不小于图像特征中各个元素的绝对值的最大值。
根据本发明的另一方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有指令,指令当在处理器上执行时促使处理器执行上面的方法中的任一个。
根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令在被执行时实现上面的方法中的任一个。
通过本发明的实施例,待补全图像中的缺失区域和非缺失区域的对应值有着不同的数值规律,使得两者可以通过后续的处理而容易地区分开,进而可以便于对缺失区域的部分进行处理,从而可以减少待补全图像中缺失区域在模型学习训练中产生不利影响,提升了图像补全的效率和准确度,减少了模型训练成本,降低了对计算机硬件资源的要求。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开。附图仅用于示出实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的附图标记表示相同或相似的要素。在附图中:
图1示出了相关技术中的待补正图像和对应的掩膜图像;
图2示意性地示出了可以应用根据本发明的一些实施例的示例场景;
图3示出了根据本发明的实施例的对用于图像补全的卷积神经网络模型初始化方法的流程图;
图4a示意性地示出了根据本发明的一些实施例的卷积神经网络模型的示意图;
图4b示出了根据本发明的实施例的待补全图像和掩膜图像的示意图及对应的卷积神经网络模型的特征提取层的卷积核的示意图;
图4c示意性示出了根据本发明的一些实施例的卷积神经网络模型的特征提取层的卷积核的示意图;
图4d示意性示出了根据本发明的一些实施例的图像特征和掩膜特征的示意图;
图5示出了根据本发明的一些实施例的对用于图像补全的卷积神经网络模型进行训练的方法500的流程图;
图6示出了根据本发明的一些实施例的对用于图像补全的卷积神经网络模型进行训练的方法600的示意图;
图7a示出了根据本发明的一些实施例的预处理层的示意图;
图7b示出了根据本发明的一些实施例的合成图像的示意图;
图7c示出了根据本发明的一些实施例的变换合成图像的示意图;
图7d示出了根据本发明的一些实施例的非线性函数的示意图;
图8a示出了根据本发明的一些实施例的对用于图像补全的卷积神经网络模型进行训练的方法800的示意图;
图8b示出了根据本发明的一些实施例的进行高低频处理前后的图像示意图;
图9示出了根据本发明的一些实施例的图像补全的方法900的流程图;
图10示出了根据本发明的一些实施例的图像补全的方法1000的示意图;
图11示出了根据本发明的一些实施例的用户界面1100的示意图;
图12a示出了根据本发明的一些实施例的一些实施例的图像补全的方法1200的流程图;
图12b示出了根据图12a所示的图像补全方法的效果图;
图13示出了根据本发明的一些实施例的用于图像补全的卷积神经网络模型初始化装置1300的示意框图;以及
图14示出了能够实现根据本发明的一些实施例的用于图像补全的卷积神经网络模型初始化方法的计算系统1400的示意框图。
具体实施方式
下面将参照附图更详细地描述本发明的若干个实施例以便使得本领域技术人员能够理解和实现本发明。然而,本发明可以具体实现为许多不同的形式并且不应被解释为局限于本文所阐述的实施例。相反,本文提供这些实施例以使得本发明全面且完整,并将充分地向本领域技术人员传达本发明的范围。这些实施例用于说明而不是限定本发明。
将理解的是,尽管术语第一、第二、第三等在本文中可以用来描述各种元件、步骤和/或部分,但是这些元件、步骤和/或部分不应当由这些术语限制。这些术语仅用来将一个元件、步骤或部分与另一个元件、步骤或部分相区分。因此,下面讨论的第一元件、步骤或部分可以被称为第二元件、步骤或部分而不偏离本发明的教导。
本文中使用的术语仅出于描述特定实施例的目的并且不意图限制本发明。如本文中使用的,单数形式“一个”、“一”和“该”意图也包括复数形式,除非上下文清楚地另有指示。将进一步理解的是,术语“包括”和/或“包含”当在本说明书中使用时指定特征、整体、步骤、操作、元件和/或部件的存在,但不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或其群组的存在。如本文中使用的,术语“和/或”包括相关联的列出项目中的一个或多个的任意和全部组合。
除非另有定义,本文中使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员所通常理解的相同含义。将进一步理解的是,诸如那些在通常使用的字典中定义的术语应当被解释为具有与其在相关领域和/或本说明书上下文中的含义相一致的含义,并且将不在理想化或过于正式的意义上进行解释,除非本文中明确地如此定义。
需要注意的是,在不冲突的前提下,实施例中的特征可以任意组合使用。
在详细介绍本发明的实施例之前,首先对一些相关的概念进行解释:
1、图像补全(Image Inpainting),又称为图像修复,指代对于部分内容缺失的图像,通过深度学习模型等计算机处理方法来基于图像所剩余的内容来重建缺失内容的过程。图像的部分内容缺失(即缺失区域)产生的原因可能是多方面的,例如可以是自定义指定图像中的某个区域并删除该区域的内容,也可以是由于保存不善或者网络原因而丢失了图像中的部分内容。在本申请中,图像可以包括动态图像或静态图像等。
2、ReLU函数,即Rectified Linear Unit函数,又称为修正线性单元,其表达式为y=max(0, x),其中,x为输入,y为输出,max操作取其中较大值作为输出。即如果x>0, y=x,否则,y=0。ReLU函数可以在神经网络中用作激活函数(activation function)。
3、深度学习(Deep Learning),是机器学习和人工智能领域中的一个分支,深度学习是指计算机利用多层次的概念和计算,来进行机器学习的方法,其中多层次中的各个层之间具有一定的关联关系。
4、神经网络(Neural Network)模型,指代在一定程度上模仿人类大脑的神经元结构来设计的一种深度学习模型,其通常是通过多个层和多个节点之间的连接关系来实现的。
5、卷积神经网络(Convolutional Neural Networks, CNN)模型,指代包括卷积运算的神经网络模型。
6、实例归一化(Instance Normalization),指代一种图像归一化算法。与其他图像归一化算法相比,实例归一化更加适合于比较重视单个像素表现的场景并且有利于提取图像内容。
图像补全技术通常基于卷积神经网络。用于图像补全的卷积神经网络可以为全卷积神经网络,即网络输入输出的空间大小一致,例如输入图像是一张256x256x3的图像和一张256x256x1掩膜图像,输出也是一张256x256x3图像。中间的每一个卷积模块一般由一个卷积层、一个非线性层组成。其中,非线性层采用ReLU函数。
由于卷积神经网络模型在训练过程中,卷积层会对全图使用卷积核进行卷积操作。因此,当输入图像仅为一张标记有缺失区域的图像时,卷积层会将标记的缺失区域和其他区域不加区别对待。这种方式对于模型训练和机器学习的不利影响表现为:如果原始图像中其他区域也有与缺失区域类似颜色的元素,那么(1)该未缺失区域会被卷积神经网络误认为是需要填补的区域;或(2)标记的缺失区域可能不被卷积神经网络认为是需要填补的区域。
图1示出了相关技术中的待补正图像和对应的掩膜图像。对于上述两个问题,在相关技术中,如图1所示,将卷积神经网络模型的输入设置为已经标记了缺失区域112的待补正图像110和对应的标记了缺失区域122的掩膜图像120,将待补正图像和对应的掩膜图像一起输入到网络模型里。利用局部卷积或者门控局部卷积算法在每层输出卷积特征图像的同时也生成一个0-1范围内的注意力掩膜,然后将卷积特征图像与注意力掩膜逐像素点乘作为该层的最终特征输出,以此来减少缺失区域对于网络模型训练的影响。上述方法通过修改网络模型结构来实现避免缺失区域对网络模型学习、训练的不利影响。但是,上述方法无疑会增加网络模型的计算量,因为需要再计算特征的同时也需要计算注意力掩膜,这使得计算过程更加繁琐,对计算资源的要求更高,降低了图像补全的效率。另外,训练过程中,注意力掩膜的网络参数初始化是随机的,参数也是是通过逐渐学习得到的,这不能保证在网络模型初始化时就能生成较好的注意力掩膜,从而无法从一开始就解决缺失区域的影响。如何利用简单有效的方法来克服这些缺点中的一个或多个、以及如何获得拥有下列优点中的至少一个的图像补全方法是亟待解决的技术问题:补全效果接近原始内容,方法简单耗费计算资源少,适用范围广,运行速度快,以及出错率低等。
本公开提供了一种可以缓解、减轻或甚至消除上述问题中的一个或多个的对用于图像补全的卷积神经网络模型初始化方法、对用于图像补全的卷积神经网络模型进行训练的方法、图像补全方法、用于图像补全的卷积神经网络模型初始化装置、计算设备和计算机可读存储介质。
图2示意性地示出了可以应用根据本发明的一些实施例的示例场景200。该场景可以包括一个或多个用户接口210、网络230以及一个或多个计算设备240。用户220与一个或多个用户接口210进行交互,进而完成与计算设备240的双向通信。计算设备240可以是单个服务器或服务器群组,或者也可以是具有一定计算和通信能力的其他设备。在一些实施例中,用户220可以通过用户接口210来输入或者以其他方式向计算设备240提交图像。例如,用户220可以指定计算设备240中预先存储的视频或图像。在一些实施例中,用户220可以借助于用户接口210来对图像进行选择、编辑等操作。例如,用户可以删除图像中的某个特定区域并选择对该区域进行补全,例如用户可以选定某个水印区域并选择对该区域进行补全。在一些实施例中,经过补全操作的图像也可以通过用户接口210呈现给用户220。
在一些实施例中,网络230可以包括局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如因特网之类的通信网络的组合。在这种情况下,计算设备240可以充当服务器,用户接口210可以例如经由网络与一个或多个计算设备240进行交互,例如向其发送数据或从其接收数据。计算设备240以及一个或多个用户接口210的每一个可以包括能够通过网络230进行通信的至少一个通信接口(未示出)。这样的通信接口可以是下列各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE 802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。通信接口的另外的示例在本文其他地方描述。
在一些实施例中,用户接口210和计算设备240可以集成在一起。在这种情况下,用户接口210和计算设备240可以直接通过内在通信链路来实现通信,而无需外部的网络230。在一些实施例中,用户接口210与一个或多个计算设备240可以集成于一个或多个终端设备(未示出)中。一个或多个终端设备可以是任何类型的具有计算功能的设备,包括移动计算机(例如,Microsoft® Surface®设备、个人数字助理(PDA)、膝上型计算机、笔记本计算机、诸如Apple iPadTM的平板计算机、上网本等)、移动电话(例如,蜂窝电话、诸如MicrosoftWindows®电话的智能手机、Apple iPhone、实现了Google® AndroidTM操作系统的电话、Palm®设备,Blackberry®设备等)、可穿戴式设备(例如智能手表、头戴式设备,包括智能眼镜,如Google® GlassTM,等)或其他类型的移动设备。在一些实施例中,一个或多个终端设备也可以是固定式设备,例如台式计算机、游戏机、智能电视等。此外,当存在多个终端设备的情况下,该多个终端设备可以是相同或不同类型的设备。
终端设备可以包括用户接口210以及可以经由用户接口与用户交互的终端应用(未示出)。终端应用可以为本地应用程序、网页(Web)应用程序或者作为轻量化应用的小程序(LiteApp,例如手机小程序、微信小程序)。在终端应用为需要安装的本地应用程序的情况下,可以将终端应用安装在终端设备中。在终端应用为Web应用程序的情况下,可以通过浏览器访问终端应用。在终端应用为小程序的情况下,可以通过搜索终端应用的相关信息(如终端应用的名称等)、扫描终端应用的图形码(如条形码、二维码等)等方式来在用户终端上直接打开终端应用,而无需安装终端应用。
图3示出了根据本发明的实施例的对用于图像补全的卷积神经网络模型初始化方法的流程图。图4a示意性地示出了根据本发明的一些实施例的卷积神经网络模型的示意图。图4b示出了根据本发明的实施例的待补全图像和掩膜图像的示意图及对应的卷积神经网络模型的特征提取层的卷积核的示意图。图4c示意性示出了根据本发明的一些实施例的卷积神经网络模型的特征提取层的卷积核的示意图。图4d示意性示出了根据本发明的一些实施例的图像特征和掩膜特征的示意图。在一些实施例中,如图4a所示,卷积神经网络模型480包括预处理层481。在一些实施例中,卷积神经网络模型480还包括编码器层482和解码器层484。在一些实施例中,预处理层481包括特征提取层(未示出),待补全图像410包括缺失区域415,对用于图像补全的卷积神经网络模型480的初始化方法300可以包括下列步骤S310-S330。
S310,将卷积神经网络中特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与待补全图像关联掩膜相对应的卷积核第二部分,卷积核第一部分用于对待补全图像进行特征提取以生成图像特征,卷积核第二部分用于对掩膜进行特征提取以生成掩膜特征。
在一些实施例中,如图4b所示,待补全图像410包括缺失区域415,缺失区域不包括图像内容信息。基于待补全图像410,生成掩膜图像420。掩膜图像420具有与待补全图像410相同的轮廓。这里的相同轮廓指的是待补全图像和掩膜图像的二维尺寸一致,即两者的长宽尺寸一致。掩膜图像420包括与缺失区域415相同的缺失区域425。这里的“相同”指的是缺失区域在待补全图像中的位置与缺失区域在掩膜图像中的位置相同并且待补全图像的缺失区域与掩膜图像的缺失区域两者的二维尺寸一致。
在一些实施例中,如图4b-4c所示,将卷积神经网络180中特征提取层481的卷积核设置成包括与待补全图像410相对应的卷积核第一部分440和与待补全图像关联掩膜相对应的卷积核第二部分430。在一些实施例中,配置卷积核第一部分440和卷积核第二部分430,卷积核第一部分440包括N*N个元素442,以及卷积核第二部分430包括N*N个元素432,其中N为大于等于1的自然数。
在一些实施例中,如图4d所示,卷积核第一部分用于对待补全图像进行特征提取以生成图像特征450,卷积核第二部分用于对掩膜进行特征提取以生成掩膜特征460。图像特征450包括与缺失区域415对应的区域455。掩膜特征460包括与缺失区域425对应的区域465。例如,利用卷积核第一部分440对待补全图像410进行第一卷积运算以获得图像特征,利用卷积核第二部分430对掩膜420进行第二卷积运算以获得掩膜特征。
S320,对卷积核第一部分中的各个元素进行随机初始化。
在一些实施例中,对卷积核第一部分中的各个元素进行高斯分布初始化或对卷积核第一部分中的各个元素进行均匀分布初始化。在一些实施例中,N*N个元素442配置为服从高斯分布,例如均值为0、方差为1的高斯分布。在一些实施例中,N*N个元素442配置为服从均匀分布,例如均为1/9的三阶矩阵。应当理解,N*N个元素442也可以根据需要进行其他设置,例如Xavier初始化,MSRA初始化等,进行只要能够满足本发明的目的即可。
S330,将卷积核第二部分中的元素中的每一个分别设置为相应初始值,
其中,初始值被设置成使得掩膜特征中对应于缺失区域的各个元素都不小于预定最大值或不大于预定最小值,预定最大值或预定最小值的绝对值不小于图像特征中各个元素的绝对值的最大值。
在一些实施例中,如图4c-4d所示,卷积核第二部分中430的元素432中的每一个分别设置为相应初始值,初始值被设置成使得掩膜特征460中各个元素都不小于预定最大值或不大于预定最小值,预定最大值或预定最小值的绝对值不小于图像特征450中各个元素的绝对值的最大值。例如,如图4c所示,卷积核第一部分430的元素432值的绝对值最大为0.2,在待补全图像410采用0-255的像素值的情况下,则进行卷积运算后图像特征450中各个元素的绝对值的最大值为51,从而配置卷积核第二部分430的元素432的值,使得掩膜特征460中对应于缺失区域465的各个元素均不小于51或者不大于-51。
本领域技术人员应当理解,本文所指的“掩膜特征中对应于缺失区域的各个元素都不小于预定最大值或不大于预定最小值”并非绝对的,在保证图像处理效果的基础上,允许忽略小概率的不符合上述条件的值出现,例如在卷积核第一部分440中存在特异的极值出现的情况下,允许忽略个别值而只需要其他值满足上述条件即可。
在一些实施例中,也可以根据卷积核第一部分440的预先配置而预先配置卷积核第二部分430的元素432值,即无需等待卷积核第一部分440的元素的具体值确定而预先配置卷积核第二部分430的值。例如,在N*N个元素442配置为服从均值为0、方差为1的高斯分布的情况下,虽然高斯分布理论上没有上限,但是可以根据一定的概率将N*N个元素442的绝对值的最大值确定为某一值,例如绝对值大于2的概率只有0.045左右,如果忽略这些低概率事件,则可以将绝对值最大值设定为2。在待补全图像410采用0-255的像素值的情况下,则进行卷积运算后图像特征450中各个元素的绝对值的最大值为510。从而预先配置卷积核第二部分430的元素432的值,使得掩膜特征460中对应于缺失区域465的各个元素均不小于510或者不大于-510。示例性地,如图4b所示,卷积核第二部分430中的各个元素432的值均设为-100。
应当理解,虽然图示卷积核第一部分430的元素432的值为-100,但是其中的值可以相等或不相等,只要使得掩膜特征中对应于缺失区域的各个元素都不小于预定最大值或不大于预定最小值即可。
应当理解,进行第一卷积运算或者第二卷积运算的填充(padding)或步长(stride)可以根据需要进行设置,不发明对此不做限定。
应当理解,在待补正图像具有红(R)、绿(G)、蓝(B)三个颜色通道的情况下,对应的卷积运算也可以在三个通道中分别进行。应当理解,图像也可以采用其他标准,例如CMYK、LAB等,本发明对此不进行限定。
通过本公开的实施例,对卷积神经网络模型进行特定的初始化,通过对与待补全图像相对应的卷积核第一部分和与待补全图像关联掩膜相对应的卷积核第二部分分别进行不同的初始化,且将卷积核第二部分中的元素中的每一个分别设置为特定初始值,便于将通过第一卷积运算和第二卷积运算分别提取的掩膜特征与图像特征进行区分。基于这种区分,为后续的对缺失区域和非缺失区域进行区分提供了便利,从而可以降低乃至消除在卷积神经网络处理过程中图像中的缺失区域对机器学习的不利影响,使得后续网络从一开始就可以规避缺失区域带来的影响。
在一些实施例中,如图4a-4b所示,掩膜基于待补全图像确定,掩膜包括与缺失区域相同的缺失区域,掩膜经受二值化处理,掩膜中与掩膜非缺失区域对应的值被赋值为第一值,以及与缺失区域对应的值被赋值为第二值。在一些实施例中,将掩膜中与掩膜非缺失区域对应的像素值赋值为0,以及将与缺失区域对应的像素值赋值为1。这样,在利用卷积核第二部分430对掩膜420进行第二卷积运算以获得掩膜特征时,将掩膜特征中与掩膜非缺失区域对应的值提取为0。
通过二值化配置,可以进一步便于区分掩膜中的缺失区域与非缺失区域,这样在掩膜经过第二卷积运算之后缺失区域对应的值可以显著不同于非缺失区域对应的值,这样可以对非缺失区域与缺失区域进行区分,便于通过后续处理将待补正图像中的缺失部分和非缺失区域进行区分,从而可以将缺失区域对网络模型的影响进行降低或者甚至消除。
在一些实施例中,将卷积核第二部分中的元素中的每一个分别设置为相应初始值包括:将初始值被设置为大于预定最大值或小于预定最小值,预定最大值或预定最小值的绝对值大于预定阈值,预定阈值为下列之一:卷积核第一部分中的各个元素的绝对值的最大值的1倍,2倍,5倍,10倍,100倍,1000倍,或10000倍。
这样,可以保证对缺失区域和非缺失区域的区分,从而便于在后续学习和训练过程中将缺失区域的像素设定为无效像素。这里的“无效像素”是指像素的值对后续的学习训练过程没有影响或影响小的像素,例如像素值均为零。
图5示出了根据本发明的一些实施例的对用于图像补全的卷积神经网络模型进行训练的方法500的流程图。图6示出了根据本发明的一些实施例的对用于图像补全的卷积神经网络模型进行训练的方法600的示意图。在一些实施例中,如图5-6所示,方法500包括步骤S510-S530。
S510,根据前述对用于图像补全的卷积神经网络模型初始化方法的实施例中的任一项的方法对卷积神经网络模型进行初始化;
S520,接收训练数据集,训练数据集包括与待补全图像对应的原始图像以及样本对,样本对包括待补全图像和待补全图像关联掩膜;和
S530,基于原始图像和样本对来对卷积神经网络模型进行训练。
在一些实施例中,利用如图4b所示的卷积核对卷积神经网络模型进行初始化。特别地,对卷积神经网络模型的预处理层630进行初始化。获取多个完整图像样本610。在多个完整图像样本610的每个中生成缺失区域625,以确定对应多个待补全图像样本620和与多个待补全图像样本一一对应的掩膜样本624,掩膜样本624包括缺失区域626。将多个待补全图像样本和与多个待补全图像样本一一对应的掩膜样本被确定为训练样本,将训练样本输入卷积神经网络模型中,依次经过预处理层630、编码器层642,解码器层646的处理,以得到预测图像660。预测图像660中与缺失区域对应的区域665被补全。利用多个完整图像样本610作为验证样本,基于训练样本,对经初始化的神经网络模型进行训练收敛,以得到经训练神经网络模型。
通过本发明的实施例,待补全图像中的缺失区域和非缺失区域的对应值有着不同的数值规律,使得两者可以通过后续的处理而容易地区分开,进而可以便于对缺失区域的部分进行处理,从而可以减少待补全图像中缺失区域在模型学习训练中产生不利影响,提升了图像补全的效率和准确度,减少了模型训练成本,降低了对计算机硬件资源的要求。
图7a示出了根据本发明的一些实施例的预处理层的示意图。图7b示出了根据本发明的一些实施例的合成图像的示意图。图7c示出了根据本发明的一些实施例的变换合成图像的示意图。图7d示出了根据本发明的一些实施例的非线性函数的示意图。
在一些实施例中,如图7a所示,其中预处理层630包括特征提取层710。在一些实施例中,预处理层630还包括在特征提取层710之后的合成图像确定层720和非线性变换层730。其中基于原始图像和样本对来对卷积神经网络模型进行训练包括:利用特征提取层710对待补全图像620和掩膜624进行特征提取,以得到图像特征和掩膜特征(未示出);利用合成图像确定层720基于图像特征和掩膜特征确定合成图像750;以及利用非线性变换层730对合成图像750进行非线性变换得到变换合成图像770。
在一些实施例中,合成图像750中包括与缺失区域对应的区域755。应当理解,合成图像750的尺寸未必与待补正图像620一致。在一些实施例中,变化合成图像的值矩阵可以与待补正图像的值矩阵是同维的,即行列数均相等。
在一些实施例中,基于图像特征和掩膜特征确定合成图像包括:将图像特征的值矩阵和掩膜特征的值矩阵相加,以得到合成图像750的像素值矩阵。在一些实施例中,对合成图像750进行非线性变换得到变换合成图像770。
在一些实施例中,通过设置初始化的卷积核和掩膜624,使得在进行第一次训练时合成图像750的像素值矩阵中与缺失区域755对应的值跟合成图像750的像素值矩阵中与非缺失区域756对应的值呈现出不同的数值规律,然后通过非线性变换使得变换合成图像中与缺失区域对应的区域的像素值为0,即将待补正图像中与缺失区域对应的像素作为无效像素,而尽量减少这些无效像素对后续的机器学习的影响。通过将预处理层中设置合成图像确定层和非线性变换层,可以对图像特征和掩膜特征进行进一步处理,从而进一步减少缺失区域的像素值对后续学习训练的影响。
通过非线性变换可以将数据进行非线性地迁移,避免在深度学习中数据总是保持线性关系。非线性变换的函数根据需要进行确定,使得在第一次训练时变换合成图像中与缺失区域对应的区域的像素值为0。通过上述初始化方法,在卷积核第一部分与卷积核第二部分的元素的绝对值相差较大的情况下,即使经过多次学习训练,两者的迭代值仍然差别很大,这样可以保证训练好的卷积神经网络模型在经过卷积核参数迭代更新之后仍然可以使得经过预处理层处理的图像(特别地,经过非线性变换层得到的线性变换图像)与缺失区域对应的像素值为0或者接近0,而尽量减少或者消除这些无效像素对后续的机器学习(例如编码和解码过程、隐藏层的参数等)的影响。该卷积神经网络模型结构简单,训练以及实际使用的计算量较小,降低了对于计算机计算能力的要求,提升了图像补全的效率。
在一些实施例中,对合成图像进行非线性变换得到变换合成图像包括:利用ReLU函数760处理合成图像,使得变换合成图像770中小于0的像素值被赋值为0。在一些实施例中,非线性变换函数可以包括ReLU函数760。如图7d所示,ReLU函数760的表达式可以为y=max(0, x),其中,x为输入,y为输出,max操作取其中较大值作为输出。即如果x>0, y=x,否则,y=0。这样,可以使得小于零的数据转换为0。
图8a示出了根据本发明的一些实施例的对用于图像补全的卷积神经网络模型进行训练的方法800的示意图。在该方法800中,基于原始图像和样本对来对卷积神经网络模型进行训练包括:将样本对中待补全图像进行高低频分离处理,得到待处理图像的高频分量和待处理图像的低频分量;和基于原始图像、待处理图像的高频分量和待补全图像关联掩膜来对卷积神经网络模型进行训练。在一些实施例中,方法800可以包括:利用上述的神经网络模型初始化方法中的任一项来对神经网络模型进行初始化;获取多个完整图像样本810;在每个完整图像样本中生成缺失区域825,以确定对应多个待补全图像样本820;对多个待补全图像样本820进行高低频处理,以确定其高频分量827和低频分量828(如图像色调信息,补全区域与其他区域在色调上一般保持一致),以及与多个待补全图像样本的高频分量827一一对应的掩膜样本824,掩膜样本824包括缺失区域826。对应多个待补全图像样本的高频分量和与多个待补全图像样本的高频分量一一对应的掩膜样本被确定为训练样本,并且输入卷积神经网络模型,经过预处理层830、编码器层842和解码器层846之后输出初始预测图像。在卷积网络神经模型输出初始预测图像之后,基于初始预测图像与待补全图像的低频分量得到848最终预测图像860。在最终预测图像860中,缺失区域865被补全。利用多个完整图像样本作为验证样本来验证最终预测图像,从而对经初始化的神经网络模型进行训练收敛,得到经训练神经网络模型。
本领域技术人员应当理解,基于初始预测图像与待补全图像的低频分量得到最终预测图像可以包括将初始预测图像与待补全图像的低频分量相加。本领域技术人员应当理解,基于初始预测图像与待补全图像的低频分量得到最终预测图像的运算也可以直接集成在卷积神经网络模型之中。本领域技术人员应当理解,也可以利用多个完整图像样本的高频分量作为验证样本,直接对初始预测图像进行验证。
本领域技术人员应当理解,可以根据不同的需要调节最终的补全图像的输出形式。在一些实施例中,最终的补全图像也可以是仅仅包括高频分量的预测图像,例如这种图像可以用于勾画图像中的轮廓部分。在一些实施例中,最终的补全图像可以是高频分量和低频分量的合成图像,这样可以得到比较逼真的图像。
在一些实施例中,高低频处理可以通过实例归一化来对RGB的每个通道做归一化来实现。在一些实施例中,实例归一化的计算方式如下:先求RGB每个通道的均值u和方差v,则归一化后的值y=(x-u)/v,其中u即代表了低频分量,而计算后的y代表高频分量。图8b示出了根据本发明的一些实施例的进行高低频处理前后的图像示意图,左图为高低频处理前的图像,右图为通过实例归一化处理的高频分量。在这种情况下,如果网络生成的初始预测图像是y’,则得到的最终预测图像x’=y’*v+u。
图9示出了根据本发明的一些实施例的图像补全的方法900的流程图。图像补全方法900包括:S910获取待补全图像和待补全图像关联掩膜;和S920将待补全图像和待补全图像关联掩膜输入根据上述训练方法中的任一项的训练方法得到的经训练卷积神经网络模型,以得到补全图像。
图10示出了根据本发明的一些实施例的图像补全的方法1000的示意图。在根据图10所示出的实施例中,获取待补全图像1020和待补全图像关联掩膜1024,待补全图像包括缺失区域1025,掩膜1024包括缺失区域1026;和将待补全图像1020和待补全图像关联掩膜1024输入图6所示的实施例的训练方法得到的经训练卷积神经网络模型,经过预处理层1030、编码器层1042和解码器层1046的处理,以得到补全图像1060。在补全图像1060中,缺失区域1065被补全。
图11示出了根据本发明的一些实施例的用户界面1100的示意图。如图11所示,在一些实施例中,终端设备1111可以包括显示界面1135、在显示界面1135中的用户交互选项1120、1130以及图像1140,图像1140包括不期望的区域1150。在一些实施例中,用户可以选择图像1140以及通过选项1120(“选择区域”)选择图像中的不期望的区域1150,并且可以通过选项1130(“去除水印”)选择对不期望的区域1150进行替换修复或者用不期望的区域1150周围的图像类似的图像风格进行补全,使得补全后的图像过渡自然,而没有替换不期望的区域1150的痕迹。
图12a示出了根据本发明的一些实施例的一些实施例的图像补全的方法1200的流程图。在一些实施例中,该方法包括:获取待补全图像1220,其包括缺失区域1225;对待补全图像1220进行高低频处理,以得到高频分量1227和低频分量1228以及与高频分量1227对应的掩膜样本1224,掩膜样本1224包括缺失区域1226;将高频分量1227和与高频分量1227对应的掩膜1224输入根据图8所示的实施例的训练方法得到的经训练神经网络模型,经过预处理层1230、编码器层1242和解码器层1246之后以得到初始补全图像。基于初始补全图像和低频分量,得到1248补全图像1260。在补全图像1260中,缺失区域1265被补全。图12b示出了根据图12a所示的图像补全方法的效果图。从图12b中可以看出,经过图像补全方法的处理,缺失的部分可以被良好地补全或者修复,过渡自然逼真,而没有明显的涂抹痕迹。
图13示出了根据本发明的一些实施例的用于图像补全的卷积神经网络模型初始化装置1300的示意框图。卷积神经网络模型包括预处理层,预处理层包括特征提取层,待补全图像包括缺失区域,装置包括:卷积核设置模块1301,配置成将卷积神经网络中特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与待补全图像关联掩膜相对应的卷积核第二部分;第一卷积核配置模块1302,其配置成对卷积核第一部分中的各个元素进行随机初始化;以及第二卷积核配置模块1303,其配置成将卷积核第二部分中的元素中的每一个分别设置为相应初始值,其中,待补全图像包括缺失区域,掩膜包括与待补全图像的缺失区域相同的缺失区域;和其中,初始值被设置成使得掩膜特征中对应于缺失区域的各个元素都不小于预定最大值或不大于预定最小值,预定最大值或预定最小值的绝对值不小于图像特征中各个元素的绝对值的最大值。用于图像补全的卷积神经网络模型初始化装置1300具有用于图像补全的卷积神经网络模型初始化方法相似的原理或优点,在此不再赘述。
图14示出了能够实现根据本发明的一些实施例的用于图像补全的卷积神经网络模型初始化方法的计算系统1400的示意框图。在一些实施例中,该计算系统1400代表图2的应用场景中的计算设备240。
计算系统1400可以包括各种不同类型的设备,例如计算设备计算机、客户端设备、片上系统和/或任何其它合适的计算系统或计算系统。
计算系统1400可以包括能够诸如通过系统总线1414或其他适当的方式连接彼此通信的至少一个处理器1402、存储器1404、(多个)通信接口1406、显示设备1408、其他输入/输出(I/O)设备1410以及一个或多个大容量存储装置1412。
处理器1402可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器1402可以被实施成一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器1402可以被配置成获取并且执行存储在存储器1404、大容量存储装置1412或者其他计算机可读介质中的计算机可读指令,诸如操作系统1416的程序代码、应用程序1418的程序代码、其他程序1420的程序代码等,以实现本发明实施例提供的方法。
存储器1404和大容量存储设备1412是用于存储指令的计算机存储介质的示例,指令由处理器1402执行来实施前面所描述的各种功能。举例来说,存储器1404一般可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外,大容量存储设备1412一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。存储器1404和大容量存储设备1412在本文中都可以被统称为存储器或计算机存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非瞬时性介质,计算机程序代码可以由处理器1402作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
多个程序模块可以存储在大容量存储设备1412上。这些程序包括操作系统1416、一个或多个应用程序1418、其他程序1420和程序数据1422,并且它们可以被加载到存储器1404以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现本文所提供的方法的计算机程序逻辑(例如,计算机程序代码或指令)。而且,这些程序模块可以分布在不同的物理位置,以实现相应的功能。例如,被描述为由图2中的计算设备240执行的方法可以分布在多个计算设备上来完成。
本发明还提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令在被执行时实现上述的方法。
虽然在图14中被图示成存储在计算系统1400的存储器1404中,但是模块1414、1418、1420和1422或者其部分可以使用可由计算系统1400访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机存储介质和通信介质。
计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算系统访问的任何其他非传送介质。
与此相对,通信介质可以在诸如载波或其他传送机制之类的已调数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机存储介质不包括通信介质。
计算系统1400还可以包括一个或更多通信接口1406,以用于诸如通过网络、直接连接等等与其他设备交换数据。通信接口1406可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等等。通信接口1406还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
在一些示例中,可以包括诸如监视器之类的显示设备1408,以用于显示信息和图像。其他I/O设备1410可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点被包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序(包括根据所涉及的功能按基本同时的方式或按相反的顺序)来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获利。
Claims (15)
1.一种对用于图像补全的卷积神经网络模型进行初始化的方法,所述方法包括:
将所述卷积神经网络中的特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与所述待补全图像关联掩膜相对应的卷积核第二部分,所述卷积核第一部分用于对所述待补全图像进行特征提取以生成图像特征,所述卷积核第二部分用于对所述掩膜进行特征提取以生成掩膜特征;
对所述卷积核第一部分中的各个元素进行随机初始化,和
将所述卷积核第二部分中的元素中的每一个分别设置为相应初始值,
其中,所述待补全图像包括缺失区域,所述掩膜包括与所述待补全图像的缺失区域相同的缺失区域;和
其中,所述初始值被设置成使得所述掩膜特征中对应于所述缺失区域的各个元素都不小于预定最大值或不大于预定最小值,所述预定最大值或预定最小值的绝对值不小于所述图像特征中各个元素的绝对值的最大值。
2.根据权利要求1所述的方法,其中所述对所述卷积核第一部分中的各个元素进行随机初始化包括:
对所述卷积核第一部分中的各个元素进行高斯分布初始化或对所述卷积核第一部分中的各个元素进行均匀分布初始化。
3.根据权利要求1所述的方法,其中所述掩膜基于所述待补全图像确定,所述掩膜经受二值化处理,所述掩膜中与所述掩膜非缺失区域对应的值被赋值为第一值,以及与所述缺失区域对应的值被赋值为第二值。
4.根据权利要求1-3中任一项所述的方法,其中所述将所述卷积核第二部分中的元素中的每一个分别设置为相应初始值包括:
将初始值被设置为大于预定最大值或小于预定最小值,所述预定最大值或预定最小值的绝对值大于预定阈值,所述预定阈值为下列之一:所述卷积核第一部分中的各个元素的绝对值的最大值的1倍,2倍,5倍,10倍,100倍,1000倍,或10000倍。
5.一种对用于图像补全的卷积神经网络模型进行训练的方法,所述方法包括:
将所述卷积神经网络中的特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与所述待补全图像关联掩膜相对应的卷积核第二部分,所述卷积核第一部分用于对所述待补全图像进行特征提取以生成图像特征,所述卷积核第二部分用于对所述掩膜进行特征提取以生成掩膜特征;
对所述卷积核第一部分中的各个元素进行随机初始化,和
将所述卷积核第二部分中的元素中的每一个分别设置为相应初始值,
接收训练数据集,所述训练数据集包括与待补全图像对应的原始图像以及样本对,所述样本对包括待补全图像和待补全图像关联掩膜;和
基于所述原始图像和所述样本对来对所述卷积神经网络模型进行训练;
其中,所述待补全图像包括缺失区域,所述掩膜包括与所述待补全图像的缺失区域相同的缺失区域;和
其中,所述初始值被设置成使得所述掩膜特征中对应于所述缺失区域的各个元素都不小于预定最大值或不大于预定最小值,所述预定最大值或预定最小值的绝对值不小于所述图像特征中各个元素的绝对值的最大值。
6.根据权利要求5所述的方法,其中所述对所述卷积核第一部分中的各个元素进行随机初始化包括:
对所述卷积核第一部分中的各个元素进行高斯分布初始化或对所述卷积核第一部分中的各个元素进行均匀分布初始化。
7.根据权利要求5所述的方法,其中所述掩膜基于所述待补全图像确定,所述掩膜经受二值化处理,所述掩膜中与所述掩膜非缺失区域对应的值被赋值为第一值,以及与所述缺失区域对应的值被赋值为第二值。
8.根据权利要求5所述的方法,其中所述基于所述原始图像和所述样本对来对所述卷积神经网络模型进行训练包括:
对所述待补全图像和所述掩膜进行特征提取,以得到图像特征和掩膜特征;
基于所述图像特征和所述掩膜特征确定合成图像;和
对所述合成图像进行非线性变换得到变换合成图像,
其中,所述变换合成图像中与所述缺失区域对应的区域的像素值为0。
9.根据权利要求8所述的方法,其中所述基于所述图像特征和所述掩膜特征确定合成图像包括:
将所述图像特征的值矩阵和所述掩膜特征的值矩阵相加,以得到所述合成图像的像素值矩阵。
10.根据权利要求8或9所述的方法,其中所述对所述合成图像进行非线性变换得到变换合成图像包括:
利用ReLU函数处理所述合成图像,使得所述变换合成图像中小于0的像素值被赋值为0。
11.根据权利要求5所述的方法,其中所述基于所述原始图像和所述样本对来对所述卷积神经网络模型进行训练包括:
将所述样本对中待补全图像进行高低频分离处理,得到待处理图像的高频分量和待处理图像的低频分量;和
基于所述原始图像、所述待处理图像的高频分量和所述待补全图像关联掩膜来对所述卷积神经网络模型进行训练。
12.一种图像补全方法,包括:
获取待补全图像和待补全图像关联掩膜;和
将所述待补全图像和所述待补全图像关联掩膜输入根据权利要求5-11中的任一项所述的训练方法得到的经训练卷积神经网络模型,以得到补全图像。
13.一种用于图像补全的卷积神经网络模型初始化装置,所述装置包括:
卷积核设置模块,其配置成将所述卷积神经网络中的特征提取层的卷积核设置成包括与待补全图像相对应的卷积核第一部分和与所述待补全图像关联掩膜相对应的卷积核第二部分,所述卷积核第一部分用于对所述待补全图像进行特征提取以生成图像特征,所述卷积核第二部分用于对所述掩膜进行特征提取以生成掩膜特征;
第一卷积核配置模块,其配置成对所述卷积核第一部分中的各个元素进行随机初始化;和
第二卷积核配置模块,其配置成将所述卷积核第二部分中的元素中的每一个分别设置为相应初始值,
其中,所述待补全图像包括缺失区域,所述掩膜包括与所述待补全图像的缺失区域相同的缺失区域;和
其中,所述初始值被设置成使得所述掩膜特征中对应于所述缺失区域的各个元素都不小于预定最大值或不大于预定最小值,所述预定最大值或预定最小值的绝对值不小于所述图像特征中各个元素的绝对值的最大值。
14.一种计算设备,包括存储器和处理器,所述存储器被配置成在其上存储计算机可执行指令,所述计算机可执行指令当在所述处理器上执行时执行权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其上存储计算机可执行指令,所述计算机可执行指令当在处理器上执行时执行权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010994787.3A CN112102200B (zh) | 2020-09-21 | 2020-09-21 | 图像补全模型初始化方法、训练方法和图像补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010994787.3A CN112102200B (zh) | 2020-09-21 | 2020-09-21 | 图像补全模型初始化方法、训练方法和图像补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112102200A CN112102200A (zh) | 2020-12-18 |
CN112102200B true CN112102200B (zh) | 2024-05-07 |
Family
ID=73755045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010994787.3A Active CN112102200B (zh) | 2020-09-21 | 2020-09-21 | 图像补全模型初始化方法、训练方法和图像补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112102200B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114302252A (zh) * | 2021-12-31 | 2022-04-08 | 深圳万兴软件有限公司 | 视频去除水印的方法、装置、计算机设备及存储介质 |
CN115294185B (zh) * | 2022-06-14 | 2023-10-03 | 中国农业科学院北京畜牧兽医研究所 | 猪只体重的估测方法以及相关设备 |
CN118447015B (zh) * | 2024-07-02 | 2024-10-15 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于图像分割与补全的缺陷检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886164A (zh) * | 2017-12-20 | 2018-04-06 | 东软集团股份有限公司 | 一种卷积神经网络训练、测试方法及训练、测试装置 |
CN108846814A (zh) * | 2018-06-11 | 2018-11-20 | 广州视源电子科技股份有限公司 | 图像处理方法、装置、可读存储介质及计算机设备 |
WO2019128508A1 (zh) * | 2017-12-28 | 2019-07-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111340734A (zh) * | 2020-03-02 | 2020-06-26 | 浙江大学 | 一种利用卷积神经网络模型的图像紫边校正方法 |
CN111402146A (zh) * | 2020-02-21 | 2020-07-10 | 华为技术有限公司 | 图像处理方法以及图像处理装置 |
CN111612799A (zh) * | 2020-05-15 | 2020-09-01 | 中南大学 | 面向人脸数据对不完整的网纹人脸修复方法、系统及存储介质 |
CN111654621A (zh) * | 2020-05-26 | 2020-09-11 | 浙江大学 | 一种基于卷积神经网络模型的双焦相机连续数字变焦方法 |
CN111652815A (zh) * | 2020-05-26 | 2020-09-11 | 浙江大学 | 一种基于深度学习的掩膜板相机图像复原方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679525B (zh) * | 2017-11-01 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置及计算机可读存储介质 |
-
2020
- 2020-09-21 CN CN202010994787.3A patent/CN112102200B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886164A (zh) * | 2017-12-20 | 2018-04-06 | 东软集团股份有限公司 | 一种卷积神经网络训练、测试方法及训练、测试装置 |
WO2019128508A1 (zh) * | 2017-12-28 | 2019-07-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN108846814A (zh) * | 2018-06-11 | 2018-11-20 | 广州视源电子科技股份有限公司 | 图像处理方法、装置、可读存储介质及计算机设备 |
CN111402146A (zh) * | 2020-02-21 | 2020-07-10 | 华为技术有限公司 | 图像处理方法以及图像处理装置 |
CN111340734A (zh) * | 2020-03-02 | 2020-06-26 | 浙江大学 | 一种利用卷积神经网络模型的图像紫边校正方法 |
CN111612799A (zh) * | 2020-05-15 | 2020-09-01 | 中南大学 | 面向人脸数据对不完整的网纹人脸修复方法、系统及存储介质 |
CN111654621A (zh) * | 2020-05-26 | 2020-09-11 | 浙江大学 | 一种基于卷积神经网络模型的双焦相机连续数字变焦方法 |
CN111652815A (zh) * | 2020-05-26 | 2020-09-11 | 浙江大学 | 一种基于深度学习的掩膜板相机图像复原方法 |
Non-Patent Citations (3)
Title |
---|
Chloe Martin-King et al..Region Hiding for Image Inpainting via Single-Image Training of U-Net .2019 International Conference on Computational Science and Computational Intelligence (CSCI).2019,622-629. * |
吴文等.基于低尺度细节恢复的单幅图像阴影去除方法.电子学报.2020,(第7期),1293-1302. * |
魏赟等.生成对抗网络进行感知遮挡人脸还原的算法研究.小型微型计算机系统.2020,第41卷(第02期),416-420. * |
Also Published As
Publication number | Publication date |
---|---|
CN112102200A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112102200B (zh) | 图像补全模型初始化方法、训练方法和图像补全方法 | |
CN111444878B (zh) | 一种视频分类方法、装置及计算机可读存储介质 | |
CN109711426B (zh) | 一种基于gan和迁移学习的病理图片分类装置及方法 | |
Qian et al. | Feature learning for steganalysis using convolutional neural networks | |
Singh et al. | Single image dehazing for a variety of haze scenarios using back projected pyramid network | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
EP3963516B1 (en) | Teaching gan (generative adversarial networks) to generate per-pixel annotation | |
RU2716322C2 (ru) | Репродуцирующая аугментация данных изображения | |
Li et al. | Context-aware semantic inpainting | |
Peng et al. | A robust coverless steganography based on generative adversarial networks and gradient descent approximation | |
Chen et al. | Naturalization module in neural networks for screen content image quality assessment | |
Yang et al. | Low‐light image enhancement based on Retinex decomposition and adaptive gamma correction | |
Yao et al. | [Retracted] Facial Expression Recognition Based on Convolutional Neural Network Fusion SIFT Features of Mobile Virtual Reality | |
Athar et al. | Degraded reference image quality assessment | |
Li et al. | Underwater Imaging Formation Model‐Embedded Multiscale Deep Neural Network for Underwater Image Enhancement | |
Liu et al. | Unifying image processing as visual prompting question answering | |
Wang et al. | Learning to hallucinate face in the dark | |
Wu et al. | Hiding data hiding | |
Rao et al. | A clustering approach to optimize online dictionary learning | |
Pajot et al. | Unsupervised adversarial image inpainting | |
CN114549698A (zh) | 文本合成方法、装置及电子设备 | |
Huo et al. | Single image‐based HDR image generation with camera response function estimation | |
CN112084371B (zh) | 一种电影多标签分类方法、装置、电子设备以及存储介质 | |
Lai et al. | Generative focused feedback residual networks for image steganalysis and hidden information reconstruction | |
Deng et al. | UCT‐GAN: underwater image colour transfer generative adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40036304 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |