CN109816615A - 图像处理方法、装置、设备以及存储介质 - Google Patents
图像处理方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN109816615A CN109816615A CN201910168409.7A CN201910168409A CN109816615A CN 109816615 A CN109816615 A CN 109816615A CN 201910168409 A CN201910168409 A CN 201910168409A CN 109816615 A CN109816615 A CN 109816615A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- target image
- collection
- input picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title claims description 14
- 230000008439 repair process Effects 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012876 topography Methods 0.000 claims description 54
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 230000008859 change Effects 0.000 claims description 27
- 239000012141 concentrate Substances 0.000 claims description 22
- 230000008485 antagonism Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010297 mechanical methods and process Methods 0.000 description 1
- 230000005226 mechanical processes and functions Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
公开了一种用于图像修复的方法、设备、装置以及存储介质。所述方法包括:接收用于预测目标图像的输入图像;确定所述输入图像的上下文特征;基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据所述上下文特征确定第一特征集和第二特征集,根据所述第一特征集的第一特征统计量调整第二特征集,得到调整后的第二特征集;以及基于所述调整后的第二特征集和所述第一特征集生成所述目标图像。
Description
技术领域
本申请涉及图像处理领域,具体涉及一种用于图像修复的方法、设备、装置以及存储介质。
背景技术
图像修复是一种用合理像素填充图像指定区域的图像编辑技术。例如,可以根据给定图像对图像边界以外的视觉内容作出合理的预测。即,根据局部的图像信息生成完整的图像内容。然而,由于现有的根据局部图像进行图像修复的方法没有考虑已知的局部图像和基于局部图像进行的预测结果之间的约束关系,因此所得到的修复图像在语义信息上和纹理上和已知的局部图像的一致性较差。因此,期望提供一种改善的图像修复方法,使得能够根据局部图像信息生成语义信息更完整、纹理一致性更强的图像。
发明内容
本申请的目的是提供一种用于图像修复的方法、设备、装置以及存储介质。利用本申请提供的方法,可以基于局部图像信息向局部图像边界以外的区域进行语义拓展,并获得具有真实语义价值、一致性的结构以及接近真实的纹理的图像修复效果。
根据本申请的一个方面,提供了一种图像处理方法,包括:接收用于预测目标图像的输入图像;确定所述输入图像的上下文特征;基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据所述上下文特征确定第一特征集和第二特征集,根据所述第一特征集的第一特征统计量调整第二特征集,得到调整后的第二特征集;以及基于所述调整后的第二特征集和所述第一特征集生成所述目标图像。
在一些实施例中,所述目标图像由所述输入图像和预测图像构成,其中,基于目标图像的尺寸以及所述输入图像在所述目标图像的中的位置在上下文特征中确定第一特征集和第二特征集包括:基于所述目标图像的尺寸以及所述输入图像在所述目标图像的中的位置确定指示所述预测图像的区域的位置特征,组合所述位置特征和所述上下文特征,并对组合的所述位置特征和所述上下文特征进行编码以获得目标特征;基于所述输入图像在所述目标图像中的位置,将所述目标特征中与所述输入图像位置相对应的元素集合确定为第一特征集,将所述目标特征中与所述目标图像中的预测图像的位置相对应的元素集合确定为第二特征集。
在一些实施例中,所述第一特征统计量是所述第一特征集中的元素的统计量。
在一些实施例中,基于根据所述第一特征集的第一特征统计量调整第二特征集包括:改变所述第二特征集中各元素的值使得改变后的第二特征集的第二特征统计量和所述第一特征统计量相同,其中所述第二特征统计量是所述第二特征集中的元素的统计量。
在一些实施例中,基于根据所述第一特征集的第一特征统计量调整第二特征集还包括:对于所述改变后的第二特征集中的每个元素,将该元素的值进一步改变为改变前的第二特征集中的该元素的值和改变后的第二特征集中该元素的值的加权平均值。
在一些实施例中,基于调整后的第二特征集和所述第一特征集生成所述目标图像包括:对由进一步改变后的第二特征集和第一特征集形成的调整后的目标特征进行解码,以生成所述目标图像。
在一些实施例中,所述图像处理方法是通过深度神经网络实现的,所述深度神经网络是通过以下步骤训练的:从训练样本集中确定一个样本图像,并在样本图像中随机确定局部图像作为深度神经网络的输入;利用所述深度神经网络对所述局部图像进行处理,并输出基于该局部图像的目标图像;调整所述深度神经网络的值使得所述目标图像和样本图像之间的损失最小,其中所述损失包括:-所述样本图像与所述目标图像的像素差异。
在一些实施例中,所述损失还包括以下各项中的至少一项:所述样本图像与所述目标图像的纹理差异;所述样本图像与所述目标图像的对抗性损失。
根据本申请的又一方面,还提供了一种图像修复装置,包括:接收单元,配置成接收输入图像;上下文特征确定单元,配置成确定所述输入图像的上下文特征;以及特征集确定单元,配置成基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据所述上下文特征确定第一特征集和第二特征集;调整单元,配置成根据所述第一特征集的第一特征统计量调整第二特征集,得到调整后的第二特征集;以及目标图像生成单元,配置成基于所述调整后的第二特征集和所述第一特征集生成所述目标图像。
在一些实施例中,所述目标图像由所述输入图像和预测图像构成,其中,所述特征集确定单元进一步配置成:基于所述目标图像的尺寸以及所述输入图像在所述目标图像的中的位置确定指示所述预测图像的区域的位置特征,组合所述位置特征和所述上下文特征,并对组合的所述位置特征和所述上下文特征进行编码以获得目标特征;基于所述输入图像在所述目标图像中的位置,将所述目标特征中与所述输入图像位置相对应的元素集合确定为第一特征集,将所述目标特征中与所述目标图像中的预测图像的位置相对应的元素集合确定为第二特征集。
在一些实施例中,其中,所述第一特征统计量是所述第一特征集中的元素的统计量。
在一些实施例中,其中所述调整单元配置成改变所述第二特征集中各元素的值使得改变后的第二特征集的第二特征统计量和所述第一特征统计量相同,其中所述第二特征统计量是所述第二特征集中的元素的统计量。
在一些实施例中,所述调整单元还配置成:对于所述改变后的第二特征集中的每个元素,将该元素的值进一步改变为改变前的第二特征集中的该元素的值和改变后的第二特征集中该元素的值的加权平均值。
在一些实施例中,其中所述目标图像生成单元还配置成:对由进一步改变后的第二特征集和第一特征集形成的调整后的目标特征进行解码,以生成所述目标图像。
根据本申请的又一方面,还提供了一种用于图像处理的设备,所述设备包括存储器和处理器,其中所述存储器中存有指令,当利用所述处理器执行所述指令时,使得所述处理器执行如前所述的方法。
根据本申请的又一方面,还提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如前所述的方法。
利用本申请提供的图像修复方法、设备、装置以及存储介质,能够将局部的图像信息修复成完整的图像信息。通过将用于表示已知区域的特征集的统计量信息对用于表示未知区域的特征集中的元素值进行调整,能够将已知区域的统计量转移到未知区域,使得通过本申请提供的方法生成的预测图像中的内容超出离预测图像最近的已知图像的信息的单向约束,并增强了已知区域和未知区域之间的颜色/纹理一致性。此外,通过直接对局部图像提取上下文特征,能够避免在图像修复的过程中引入不必要的先验信息,而能够完全基于输入的局部图像的信息确定上下文特征,使得能够生成与输入的局部图像在结构、语义和纹理上都更一致的修复图像。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1A和图1B示出了基于局部图像进行图像修复的一些示例;
图2A示出了根据本申请的实施例的图像修复系统的示例性的场景图;
图2B-图2E示出了根据本申请的实施例的图像修复方法的应用的示例性的图形用户界面;
图3示出了根据本申请的实施例的一种图像修复装置的示意图;
图4A和图4B示出了根据本申请的实施例的输入图像的示例;
图5示出了根据本申请的实施例的特征扩展网络的一种示例性的结构;
图6示出了根据本申请的确定深度神经网络输出的图像的对抗性损失的一个示例;
图7示出了根据本申请的实施例的一种图像修复方法的示意性的流程图;
图8A示出了根据本申请的实施例的图像修复的一个示例性的流程;
图8B至图8J示出了本申请提供的图像修复方法的效果图;以及
图9示出了根据本申请的实施例的计算设备的架构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本申请使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性连接或信号连接,不管是直接的还是间接的。
图1A和图1B示出了基于局部图像进行图像修复的一些示例。如图所示,利用图像修复算法可以基于局部的面部、躯干等信息,对人或动物的图像进行修复,从而获得完整的修复图像。其中,完整的修复图像中的一部分是已知的局部图像,其余部分是通过局部图像进行预测得到的预测图像。
可以理解的是,由于预测图像是基于局部图像生成的,因此预测图像不是唯一确定的。只要预测图像的语义信息能够是真实的,纹理信息与局部图像相似,就可以认为图像修复的效果是好的。
例如,如图1A所示,可以通过对局部的人脸或动物脸部的图像进行修复,从而生成完整的人物头像或动物面部的图像。
又例如,对于图1B的三个示例来说,可以通过局部的躯干信息修复得到完整的动物或人物的身体。从图1B中可以看出,修复得到的鸟类的信息包括头部、嘴部、尾部等原始局部图像中不包含的语义信息,并且通过图像修复生成的鸟类躯干部分或背景部分的纹理信息也和局部图像中相应的纹理信息具有很高的一致性。
同样的,对于图1B中的人物躯干修复的示例,尽管局部图像仅包括人物头部和肩部的信息,但利用本申请提供的图像修复算法,可以生成与局部信息纹理一致的、完整的人体躯干的图像。
本领域人员可以理解,对于图像修复来说,无需限定用于生成完整图像的局部图像的内容信息。局部图像可以具有明确的语义信息,也可以是纹理图像。本领域技术人员可以根据实际情况调整图像修复算法的参数,使得图像修复算法能够适用于不同语义的图像修复。
图2A示出了根据本申请的图像修复系统的示例性的场景图。如图2A所示,该图像修复系统100可以包括一个或多个用户终端110、一个或多个网络120、一个或多个服务器130以及一个或多个数据库140。
在一些实施例中,用户终端110可以包括但不限于电脑110-1、手机120-1等。可以理解的是,用户终端可以是任何其他类型的电子设备,包括但不限于笔记本、平板电脑、智能家居设备、可穿戴设备等。根据本申请提供的用户终端可以用于接收用于图像修复的原始的局部图像信息作为输入图像。在一些实施例中,用户终端可以用于接收输入图像,并利用用户终端的处理单元对输入图像进行图像修复。例如,用户终端可以利用内置的存储器中存储的算法和数据对输入图像执行图像修复算法。在一些实现方式中,用户终端可以利用内置的应用程序执行图像修复。在另一些实现方式中,用户终端可以通过调用外部数据库中存储的图像修复程序执行图像修复。
在另一些实施例中,用户终端可以用于接收输入图像,并将输入图像经由网络120发送至服务器130,并由服务器130执行图像修复。在一些实现方式中,服务器130可以利用内置的应用程序执行图像修复。在另一些实现方式中,服务器130可以通过调用外部数据库中存储的图像修复程序执行图像修复。
网络120可以是单个网络,或多个不同网络的组合。例如,网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。
服务器130可以是一个单独的服务器,或一个服务器群组,群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的,例如数据中心。服务器130可以是本地的,或远程的。
数据库140可以泛指具有存储功能的设备。数据库130主要用于存储从用户终端接收的数据和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的,或远程的。数据库130可以是各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子,该系统可以使用的存储设备并不局限于此。
数据库140可以与网络120相互连接或通信,或直接与服务器130或其一部分相互连接或通信,或是两种方式的结合。
利用图2A提供的图像修复系统,可以通过用户终端接收待修复的输入图像。例如,用户可以通过安装在用户终端上的摄像设备拍摄图像作为输入图像。又例如,用户也可以经由网络下载图片作为输入图像或从用户设备中的存储单元中读取输入图像。利用确定的输入图像,可以利用用户终端本身的处理单元执行图像修复,或由用户终端经由网络120将待修复的输入图像传输到服务器,然后由服务器执行图像修复。下文中将详细阐述图像修复方法的流程。
图2B-图2E示出了根据本申请的实施例的图像修复方法的应用的示例性的图形用户界面。
如前所述,可以利用用户终端执行本申请提供的图像修复方法。如图2B所示,用户可以利用用户终端中嵌入的程序选择用于修复的局部图像。例如,用户可以点击图2B中的“添加图片”的“十”形符号,并输入待修复的输入图像。例如,用户可以从本地存储单元中选择待修复的输入图像或利用用户终端的图像采集设备采集待修复的输入图像。图2C示出了用户输入待修复的输入图像后的一种示例性的图形用户界面的效果。
在一些实施例中,用户还可以输入目标图像,即修复后得到的图像的尺寸。如图2D所示,用户可以输入“上”、“下”、“左”、“右”四个参数以确定目标图像的尺寸。其中上述四个参数分别表示输入图像的上边缘与目标图像的上边缘之间的距离、输入图像的下边缘与目标图像的下边缘之间的距离、输入图像的左边缘与目标图像的左边缘之间的距离、输入图像的右边缘与目标图像的右边缘之间的距离。
如前所述,可以利用用户终端本身执行图像修复过程。也可以经由网络将输入图像发送到服务器,并由服务器执行图像修复过程。图2E示出了根据本申请实施例的方法得到的目标图像的效果图。图2E中示出的图像是根据图2C中示出的局部图像生成的,其具有与局部图像一致的纹理信息和更完整的语义信息。
本领域技术人员可以理解,图2B-图2E仅示出了用于实现本申请提供的图像修复方法的一种示例性的图形用户界面。事实上,本领域技术人员可以利用任何方式实现响应于用户的请求对局部图像进行修复,本申请对此不做限制。
图3示出了根据本申请的一种图像修复装置的示意图。图3中示出的图像修复装置可以实现为图2A中示出的用户终端或服务器。
图像修复装置300可以包括接收单元310、上下文特征确定单元320、以及上下文预测单元330。其中上下文预测单元330配置成用于根据上下文特征确定单元确定的上下文特征进行预测,从而生成目标图像。如图3所示,上下文预测单元可以进一步包括特征集确定单元331、调整单元332以及目标图像生成单元333。尽管在图3中没有明确示出,然而本领域技术人员可以理解,在符合本申请原理的情况下,图3中示出的特征集确定单元331、调整单元332以及目标图像生成单元333可以被设置成独立的单元,也可以被设置成集成的模块。
接收单元310可以配置成接收输入图像。图4A和图4B示出了输入图像的两个示例。其中,示出的图像中包括街景。图4B示出的图像中包括纹理图像。可以理解的是,图4A和图4B仅示出了输入图像的可能的两个示例。实际操作过程中,输入图像中可以包含任意类型的图像信息,对此本申请不加以限制。
继续参考图3,上下文确定单元320可以配置成用于确定所述输入图像的上下文特征。在一些实施例中,上下文确定单元可以是一种深度神经网络,在本申请中,上下文确定单元也可以被称作是特征扩展网络,其由卷积层和池化层组成的,并可以用于对所述输入图像进行卷积处理,并确定输入图像的上下文特征。例如,特征扩展网络可以包括由卷积层和池化层组成的编码单元、扩张卷积层形成的扩张单元以及由卷积层和池化层组成的与编码单元相对应的解码单元,其中扩张卷积指的是其扩张率大于一的卷积。通过利用特征扩展网络对输入图像进行处理,可以确定输入图像的上下文特征。
在一些实施例中,可以直接将输入图像输入特征扩展网络,并将特征扩展网络的输出作为输入图像的上下文特征。当通过特征扩展网络对输入图像直接进行处理时,可以认为特征扩展网络输出的上下文特征是完全基于输入图像本身的信息生成的,而不包含任何无意义的先验信息。
在另一些实施例中,特征扩展网络的输入可以包括目标图像的尺寸信息。在一些示例中,可以根据待修复的目标图像的尺寸和输入图像在目标图像中的位置调整输入图像,然后将调整后的输入图像输入特征扩展网络,并将特征扩展网络的输出作为输入图像的上下文特征。例如,如果输入图像的尺寸是64*64像素,目标图像的尺寸是128*128像素,并且已知输入图像位于目标图像的中心位置,那么可以通过添加像素的方式将输入图像的尺寸调整至128*128。其中,调整后的输入图像的中心位置的像素时原输入图像的对应像素的值,其余添加的像素值可以是随机值或预定义的值,如0、1或任何其他可能的数值。
在一些实施例中,可以将输入图像的像素值通过线性映射的方式调整至-1到1之间,以节省深度神经网络的计算负担。
特征集确定单元331可以配置成基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据所述上下文特征确定第一特征集和第二特征集。其中,第一特征集可以是对应于上下文特征中与目标图像中的输入图像的位置相对应的元素形成的集合,第二特征集可以是对应于上下文特征中与目标图像中的预测图像的位置相对应的元素形成的集合。
在一些实施例中,特征集确定单元331可以实现为深度神经网络。例如,可以利用深度神经网络对所述上下文特征进行处理以获得用于表示完整的目标图像的特征集,并基于目标图像的尺寸、输入图像的尺寸以及所述输入图像在所述目标图像中的位置,在经过处理的上下文特征中确定第一特征集和第二特征集。例如,特征集确定单元可以包括由卷积层形成的编码单元和/或扩张卷积单元。
在一种实现方式中,如果上下文特征是利用上下文特征确定单元对输入图像直接进行处理确定的,那么可以基于所述目标图像的尺寸以及所述输入图像在所述目标图像的中的位置确定指示所述预测图像的区域的位置特征,并组合所述位置特征和所述上下文特征以获得组合的上下文特征。在这种情况下,特征集确定单元331可以利用例如深度神经网络对组合的上下文特征进行处理,并进一步地,可以基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,并利用特征集确定单元对组合的上下文特征进行处理(如编码)以确定第一特征集和第二特征集。
调整单元332可以配置成根据所述第一特征集的第一特征统计量调整第二特征集。如前所述,第一特征集包括与目标图像中的输入图像的位置相对应的元素,第二特征集包括与目标图像中处输入图像以外的预测图像的位置相对应的元素。因此,第一特征集的元素可以用于表示目标图像中已知区域的输入图像的特征,第二特征集的元素可以用于表示目标图像中未知区域的预测图像的特征。根据本申请的原理,可以通过确定第一特征集的第一特征统计量,并根据第一特征统计量调整第二特征集中的各元素的值,能够将已知区域的特征的统计特性转移给未知区域的特征,这使得最终生成的预测图像的内容能够超出离预测图像最近的已知图像的信息的单向约束,并增强了已知区域和未知区域之间的颜色/纹理一致性。
在一些实施例中,第一特征统计量可以是第一特征集中所有元素的统计量。这里可以将第一特征集中的元素的平均值、标准差、方差中的至少一个作为第一特征统计量。可以理解的是,在不超出本申请的原理的前提下,本领域技术人员可以任意选择用于确定第一特征统计量的方法。例如,也可以将第一特征集的样本均值、样本方差、样本极差等统计量作为第一特征统计量。
在一些实施例中,所述调整单元332还配置成改变所述第二特征集中各元素的值使得改变后的第二特征集的第二特征统计量和所述第一特征统计量相同,其中所述第二特征统计量是所述第二特征集中的元素的统计量。例如,当第一统计量是第一特征集中的元素的平均值和标准差时,可以基于下式对第二特征集中的每个元素的值进行调整,得到调整后的第二特征集,使得调整后的第二特征集中元素的平均值和标准差与第一特征统计量相同:
其中x1表示第二特征集,x2表示第一特征集。μ(x2)表示第一特征集中各元素的平均值,σ(x2)表示第一特征集中各元素的标准差,μ(x1)表示第二特征集中各元素的平均值,以及σ(x1)表示第二特征集中各元素的标准差。AdaIN(x1,x2)基于第一特征集x2的特征统计量调整第二特征集x1中各元素的值,使得调整后的第二特征集的特征统计量与第一特征集的特征统计量相同。
进一步地,所述调整单元332还可以配置成对于所述改变后的第二特征集中的每个元素,将该元素的值进一步改变为改变前的第二特征集中的该元素的值和改变后的第二特征集中该元素的值的加权平均值。这里本申请不对改变前的元素值和改变后的元素值的权重进行限制。具体地,可以将改变前的第二特征集中的元素的权重预定义为ρ,则改变后的第二特征集中的元素的权重为1-ρ,其中ρ可以是大于等于0、小于等于1的任意数值。在一个示例中,ρ可以等于0.5。
利用上述调整单元,调整后的第二特征集和第一特征集形成的调整后的目标特征可以表示为:
其中和xΩ分别表示对应于输入图像的已知区域和对应于预测图像的未知图像区域,f表示并对组合的位置特征和上下文特征进行处理确定的目标特征,ρ是预定义的参数,其值在0到1之间。M是f(X)尺寸一致的掩码矩阵,在M中可以使用0指示已知区域,1指示预测区域。μ和σ表示计算均值和标准差。
目标图像生成单元333可以配置成基于进一步改变后的第二特征集和所述第一特征集生成所述目标图像,其中所述目标图像由所述输入图像和预测图像构成。如前所述,第一特征集包括与目标图像中的输入图像的位置相对应的元素,第二特征集包括与目标图像中处输入图像以外的预测图像的位置相对应的元素。因此,通过组合第一特征集和调整后的第二特征集,可以确定用于完整的目标图像的特征集。在一些实施例中,目标图像生成单元333可以实现为由卷积层和池化层形成的深度神经网络,例如卷积层实现的解码单元。通过利用深度神经网络对调整后的第二特征集和第一特征集形成的目标特征进行处理,可以输出包括预测图像的目标图像。
利用本申请提供的图像修复装置,通过将用于表示已知区域的特征集的统计量信息对用于表示未知区域的特征集中的元素值进行调整,能够将已知区域的统计量转移到未知区域,使得通过本申请提供的方法生成的预测图像中的内容超出离预测图像最近的已知图像的信息的单向约束,并增强了已知区域和未知区域之间的颜色/纹理一致性。
此外,通过直接对局部图像提取上下文特征,能够避免在图像修复的过程中引入不必要的先验信息,而能够完全基于输入的局部图像的信息确定上下文特征,使得能够生成与输入的局部图像在结构、语义和纹理上都更一致的修复图像。
图5示出了根据本申请的实施例的特征扩展网络的一种示例性的结构。如图5所示,特征扩展网络500可以包括编码单元501,扩张单元502以及解码单元503。其中,扩张单元502连接在编码单元501和解码单元503之间。
在本申请提供的实施例中,编码单元501可以包括至少一个卷积层和至少一个池化层,其配置成对特征扩展网络的输入进行编码。在一些实施例中,编码单元输出的特征图的尺寸小于特征扩展网络的输入的图像尺寸,并且编码单元输出的特征图的通道数大于特征扩展网络的输入的图像的通道数。
扩张单元502可以用于进一步获取特征图中的上下文信息。例如,扩张单元502可以实现为扩张卷积层形成的网络结构。扩张卷积层指的是其扩张率大于一的卷积层。扩张单元502可以配置成用于对编码单元501输出的特征图进行进一步处理,以提取其中的上下文信息。在一些实施例中,在利用扩张单元502对编码单元501输出的特征图进行处理时,不改变该特征图的分辨率。这是由于利用扩张卷积可以在保持特征图分辨率不变的情况下,以更大的感受野获得特征图中的信息。可以理解,本领域技术人员可以根据实际需要,用其他能够获得特征图信息的神经网络的结构替换扩张卷积层。本申请中不限制扩张单元的具体形式。
解码单元503可以包括至少一个卷积层和至少一个池化层,其配置成对扩张单元502的输出进行解码。在一些实施例中,解码单元输出的特征图的尺寸与待修复的目标图像的分辨率相同。解码单元503可以通过双线性上采样实现特征图的分辨率的增加。本领域技术人员可以理解,也可以使用其他的上采样手段实现特征图分辨率的增加。
在一些实施例中,解码单元可以包括特征重排层。特征重排层可以用于改变被处理的特征图的分辨率。在一个示例中,解码单元的最后一层的输入是一个h*w*(r1*r2*c’)的特征图。特征重排层可以配置成用于基于预定的映射关系,将尺寸为h*w*(r1*r2*c’)重排成一个尺寸为r1h*r2w*c’的特征图。在一个示例中,如果特征重排层时解码单元503的最后一层,这里h*w表示特征扩展网络的输入图像的尺寸,r1h*r2w表示待修复的目标图像的尺寸。这样的重排操作s可以被定义为:
其中,F表示特征重排层输入的特征图,r1、r2和c’预定义的参数值,i、j、k是索引参数。floor表示向下取整操作,mod表示求余操作。也就是说,floor((i/r1)得到的是i除以r1得到的结果中整数部分的值,floor(j/r2)得到的是j除以r2得到的结果中整数部分的值。mod(i,r1)得到的是i除以r1得到的余数,mod(j,r2)得到的是j除以r2得到的余数。
通过重排操作s,可以将编码单元中间层输出的特征图的元素进行重排,并生成与目标图像的尺寸相同的特征图。
在一些实施例中,解码单元503还可以包括用于对特征重排层进行卷积的卷积层,从而更好地获取重排后的特征图中的上下文特征。
对于尺寸为r1h*r2w*c’的输出来说,如果利用上采样进行分辨率的增加,那么上采样前的卷积层的通道数为c’,而如果利用特征重排层代替上采样,那么特征重排层之前的卷积层的通道数应当被设置成r1*r2*c’。因此,在卷积核大小不变的情况下,使用特征重排层能够增加之前的卷积层的参数个数,使得特征扩展网络的表达能力更强。
当图3中示出的上下文特征确定单元和上下文预测单元被实现为深度神经网络,可以通过以下步骤训练该深度神经网络:
从训练样本集中确定一个样本图像Y,其中,训练样本集可以包括人脸、鸟类、纹理、街景等图像内容。可以通过在样本图像中随机一个填充边缘m=(top,left,bottom,right)以确定局部图像作为深度神经网络的输入。这里假定目标图像和局部图像都是矩形的,其中top表示局部图像的上边缘与目标图像上边缘之间的距离,left表示局部图像的左边缘与目标图像的左边缘之间的距离,bottom表示局部图像的下边缘与目标图像的下边缘之间的距离,right表示局部图像的右边缘与目标图像的右边缘之间的距离。
然后,可以利用所述深度神经网络对所述局部图像进行处理,并输出基于该局部图像的目标图像。
调整所述深度神经网络的值使得所述目标图像和样本图像之间的损失最小,其中所述损失包括以下各项中的至少一项:
-所述样本图像与所述目标图像的像素差异;
-所述样本图像与所述目标图像的纹理差异;
-所述样本图像与所述目标图像的对抗性损失。
其中,在本申请中,所述样本图像与所述目标图像的像素差异也可以被称作是重构损失函数,可以采用相对置信方式确定重构损失函数,其中以已知区域作为中心,未知区域中离已知区域越近的像素的权重最高,离已知区域越远的像素权重越低。这是考虑到在图像修复过程中,未知区域中离已知区域越近的图像内容受到已知区域的图像的影响越大。因此在确定重构损失函数时,通过以上方式使得输出的目标图像中越靠近已知区域的像素与真实图像的差异越小。
在一些实施例中,重构损失函数可以表示为:
Ls=||(Y-G(X,m;θ))⊙Mw||1
其中Y表示真实的样本图像的矩阵,G表示深度神经网络的输出,X表示局部图像,m表示边缘尺寸,θ表示深度神经网络的参数,Mw表示权重矩阵。⊙是矩阵中对应元素相乘的操作。符号||A||1表示矩阵A的1-范数。
其中,权重矩阵Mw可以表示为:
其中
其中g是高斯滤波器,并且将重复k次产生其中k是索引参数,i表示当前操作的序号,k是预定义的正整数。∈是预定义的正的常数,例如∈可以是10的-4次方。设置∈以避免在确定Mw时进行的除法操作得到超出预设范围的数值大小。
所述样本图像与所述目标图像的纹理差异可以用隐式多样性马尔科夫随机场正则项函数表示,通过调整深度神经网络的参数优化该函数,可以通过拉近深度神经网络输出的图像G(X,m)和原始的图像Y的特征分布来创建清晰纹理。使得深度神经网络输出的图像G(X,m)和原始的图像Y之间的纹理差异尽量小。
具体来说,让表示要未知区域的预测图像,Y表示样本图像,和YL表示从预定义的图像特征提取网络中的第L层特征图中提取的特征。预定义的图像特征提取网络可以使VGG19网络,也可以是其他任何已知的图像特征提取网络。L层可以是VGG19网络的conv3_2和/或conv4_2层,或其他任何一层。
对于分别从和YL中提取一个具有预定义的大小的图像块v和s,它们的相似度定义如下:
这里μ(v,s)计算两者间的余弦相似度。r∈ρs(YL)表示除s以外所有属于YL的图像块。h和∈是两个预定义的正常数。最终,和YL的隐式多样性马尔科夫随机场损失如下:
Lmrf=2LM(conv4_2)+LM(conv3_2),其中
其中,可以通过归一化计算得到,Z是预定义的常数。L表示预定义的图像特征提取网络的层数。
与专注于恢复纹理或风格的风格损失及其变体的其他损失相比,该损失函数通过引用其最相对相似的图像块来加强局部图像细节。
所述样本图像与所述目标图像的对抗性损失可以通过预定义对抗网络输出的结果确定。
图6示出了根据本申请的确定深度神经网络输出的图像的对抗性损失的一个示例。
如图6所示,根据本申请的实施例使用了两个预定义的对抗网络用于生成对抗性损失,其中上下文对抗网络Dcontext的作用是对本申请中通过深度神经网络生成的图像中未知区域的部分进行鉴别,全局对抗网络Dglobal的作用是对深度神经网络生成的图像整体进行鉴别。
其中可以基于样本图像的尺寸和局部图像的尺寸确定上下文对抗网络Dcontext输出的特征图中分别对应于已知区域和未知区域的部分。通过上下文对抗网络Dcontext可以对特征图中未知区域中每个像素的真实性做出判断,并输出一个对应的表示真实性的真实值。通过对未知区域的所有像素的真实值进行平均可以确定未知区域的第一真实值。
全局对抗网络Dglobal可以对于输入图像的全局的真实性做出判断,并输出一个表示图像整体真实性的第二真实值。
这里对抗性损失可以定义为:
其中n∈{context.global},当n取值为context时L表示未知区域的对抗性损失,当n取值为global时L表示整体图像的对抗性损失。
t∈[0,1]。其中t是预定义的常数。G表示被训练的深度神经网络,θ表示网络参数,Y表示样本图像。为对基于求导操作。λgp为正则项系数。PX和分别为x和的分布。表示属于PX的所有元素X的期望,表示属于的所有元素的期望。符号||A||2表示矩阵A的2-范数。
最终总的对抗性损失可以表示为未知区域的对抗性损失和整体图像的对抗性损失的加权平均值,例如,总的对抗性损失可以表示为:
通过以上方式可以确定所述样本图像与所述目标图像的像素差异Ls、所述样本图像与所述目标图像的纹理差异Lmrf、以及所述样本图像与所述目标图像的对抗性损失Ladv。因此,要训练的深度神经网络的总损失函数可以表示为:
L=λsLs+λmrfLmrf+λadvLadv
其中λs、λmrf、λadv是预定义的系数。在一个示例中,λs可以设置为5,λs可以设置为0.1,λadv可以设置为0.01。上述参数的示例不限制本申请的范围,技术人员可以根据实际情况调整总损失函数中的三个子损失函数的分别的权重。
图7示出了根据本申请的实施例的一种图像修复方法的示意性的流程图。
在步骤S702中,可以接收用于预测目标图像的输入图像,其中所述输入图像是所述目标图像的局部图像,输入图像中可以包含任意类型的图像信息。
在步骤S704中,可以确定所述输入图像的上下文特征。在一些实施例中,可以利用深度神经网络对输入图像进行处理,并确定输入图像的上下文特征。
在一些实施例中,可以直接对输入图像进行处理,并确定输入图像的上下文特征。当对输入图像直接进行处理时,可以认为由此确定的上下文特征是完全基于输入图像本身的信息生成的,而不包含任何无意义的先验信息。
在另一些实施例中,可以根据目标图像的尺寸和输入图像在目标图像中的位置调整输入图像,然后对调整后的输入图像进行处理以获得输入图像的上下文特征。例如,如果输入图像的尺寸是64*64像素,目标图像的尺寸是128*128像素,并且已知输入图像位于目标图像的中心位置,那么可以通过添加像素的方式将输入图像的尺寸调整至128*128。其中,调整后的输入图像的中心位置的像素时原输入图像的对应像素的值,其余添加的像素值可以是随机值或预定义的值,如0、1或任何其他可能的数值。
在一些实施例中,可以将输入图像的像素值通过线性映射的方式调整至-1到1之间,以节省计算负担。
在一些实施例中,可以对输入图像进行编码,编码后得到的特征图的尺寸可以小于输入图像的尺寸,以及编码后得到的特征图的通道数可以大于输入图像的通道数。
在一些实施例中,可以利用扩张卷积进一步处理编码后的输入图像。扩张卷积可以在保持特征图分辨率不变的情况下,以更大的感受野获得特征图中的信息。
在一些实施例中,可以对扩张卷积后得到的输入图像的特征图进行解码,在一些实施例中,解码的特征图的尺寸与待修复的目标图像的分辨率相同。可以通过双线性上采样实现特征图的分辨率的增加。本领域技术人员可以理解,也可以使用其他的上采样手段实现特征图分辨率的增加。
在一些实施例中,还可以利用前文中提到的特征重排操作改变特征图的分辨率,使得能够增加网络中的卷积层的参数个数,使得特征扩展网络的表达能力更强。在此不再加以赘述。
在步骤S706中,可以基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据所述上下文特征确定第一特征集和第二特征集。其中,第一特征集可以是对应于上下文特征中与目标图像中的输入图像的位置相对应的元素形成的集合,第二特征集可以是对应于上下文特征中与目标图像中的预测图像的位置相对应的元素形成的集合。
在一些实施例中,可以利用深度神经网络对所述上下文特征进行处理(如编码)以获得用于表示完整的目标图像的特征集,并基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,在经过处理的上下文特征中确定第一特征集和第二特征集。
在一种实现方式中,如果上下文特征是利用上下文特征确定单元对输入图像直接进行处理确定的,那么可以基于所述目标图像的尺寸以及所述输入图像在所述目标图像的中的位置确定指示所述预测图像的区域的位置特征,并组合所述目标图像的尺寸特征和所述上下文特征以获得组合的上下文特征。在这种情况下,可以利用例如深度神经网络对组合的上下文特征进行处理,并进一步地,可以基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据组合的上下文特征确定第一特征集和第二特征集。
在步骤S708中,可以根据所述第一特征集的第一特征统计量调整第二特征集。如前所述,第一特征集包括与目标图像中的输入图像的位置相对应的元素,第二特征集包括与目标图像中处输入图像以外的预测图像的位置相对应的元素。因此,第一特征集的元素可以用于表示目标图像中已知区域的输入图像的特征,第二特征集的元素可以用于表示目标图像中未知区域的预测图像的特征。根据本申请的原理,可以通过确定第一特征集的第一特征统计量,并根据第一特征统计量调整第二特征集中的各元素的值,能够将已知区域的特征的统计特性转移给未知区域的特征,这使得最终生成的预测图像的内容能够超出离预测图像最近的已知图像的信息的单向约束,并增强了已知区域和未知区域之间的颜色/纹理一致性。
在一些实施例中,第一特征统计量可以是第一特征集中所有元素的统计量。这里可以将第一特征集中的元素的平均值、标准差、方差中的至少一个作为第一特征统计量。可以理解的是,在不超出本申请的原理的前提下,本领域技术人员可以任意选择用于确定第一特征统计量的方法。例如,也可以将第一特征集的样本均值、样本方差、样本极差等统计量作为第一特征统计量。
在一些实施例中,可以改变所述第二特征集中各元素的值使得改变后的第二特征集的第二特征统计量和所述第一特征统计量相同,其中所述第二特征统计量是所述第二特征集中的元素的统计量。例如,当第一统计量是第一特征集中的元素的平均值和标准差时,可以基于下式对第二特征集中的每个元素的值进行调整,得到调整后的第二特征集,使得调整后的第二特征集中元素的平均值和标准差与第一特征统计量相同:
其中x1表示第二特征集,x2表示第一特征集。μ(x2)表示第一特征集中各元素的平均值,σ(x2)表示第一特征集中各元素的标准差,μ(x1)表示第二特征集中各元素的平均值,以及σ(x1)表示第二特征集中各元素的标准差。AdaIN(x1,x2)基于第一特征集x2的特征统计量调整第二特征集x1中各元素的值,使得调整后的第二特征集的特征统计量与第一特征集的特征统计量相同。
进一步地,还可以对于所述改变后的第二特征集中的每个元素,将该元素的值进一步改变为改变前的第二特征集中的该元素的值和改变后的第二特征集中该元素的值的加权平均值这里本申请不对改变前的元素值和改变后的元素值的权重进行限制。具体地,可以将改变前的第二特征集中的元素的权重预定义为ρ,则调整后的第二特征集中的元素的权重为1-ρ,其中ρ可以是大于等于0、小于等于1的任意数值。在一个示例中,ρ可以等于0.5。
利用上述调整步骤,调整后的第二特征集和第一特征集形成的调整后的目标特征可以表示为:
其中和xΩ分别表示对应于输入图像的已知区域和对应于预测图像的未知图像区域,f表示并对组合的位置特征和上下文特征进行处理确定的目标特征,ρ是预定义的参数,其值在0到1之间。M是f(X)尺寸一致的掩码矩阵,在M中可以使用0指示已知区域,1指示预测区域。μ和σ表示计算均值和标准差。
在步骤S710中,可以基于调整后的第二特征集生成所述目标图像,其中所述目标图像由所述输入图像和预测图像构成。在一些实施例中,可以对由进一步改变后的第二特征集和第一特征集形成的调整后的目标特征进行解码,以生成所述目标图像。
如前所述,第一特征集包括与目标图像中的输入图像的位置相对应的元素,第二特征集包括与目标图像中处输入图像以外的预测图像的位置相对应的元素。因此,通过组合第一特征集和调整后的第二特征集,可以确定用于完整的目标图像的特征集。在一些实施例中,可以利用由卷积层和池化层形成的深度神经网络对调整后的第二特征集和第一特征集形成的目标特征进行处理,可以输出包括预测图像的目标图像。
利用本申请提供的图像修复方法,通过将用于表示已知区域的特征集的统计量信息对用于表示未知区域的特征集中的元素值进行调整,能够将已知区域的统计量转移到未知区域,使得通过本申请提供的方法生成的预测图像中的内容超出离预测图像最近的已知图像的信息的单向约束,并增强了已知区域和未知区域之间的颜色/纹理一致性。
此外,通过直接对局部图像提取上下文特征,能够避免在图像修复的过程中引入不必要的先验信息,而能够完全基于输入的局部图像的信息确定上下文特征,使得能够生成与输入的局部图像在结构、语义和纹理上都更一致的修复图像。
在一些实施例中,图7中示出的图像修复方法可以通过深度神经网络实现。可以通过以下步骤训练该深度神经网络:
从训练样本集中确定一个样本图像Y,其中,训练样本集可以包括人脸、鸟类、纹理、街景等图像内容。可以通过在样本图像中随机一个填充边缘m=(top,left,bottom,right)以确定局部图像作为深度神经网络的输入。这里假定目标图像和局部图像都是矩形的,其中top表示局部图像的上边缘与目标图像上边缘之间的距离,left表示局部图像的左边缘与目标图像的左边缘之间的距离,bottom表示局部图像的下边缘与目标图像的下边缘之间的距离,right表示局部图像的右边缘与目标图像的右边缘之间的距离。
然后,可以利用所述深度神经网络对所述局部图像进行处理,并输出基于该局部图像的目标图像。
调整所述深度神经网络的值使得所述目标图像和样本图像之间的损失最小,其中所述损失包括以下各项中的至少一项:
-所述样本图像与所述目标图像的像素差异;
-所述样本图像与所述目标图像的纹理差异;
-所述样本图像与所述目标图像的对抗性损失。
图8A示出了根据本申请的实施例的图像修复的一个示例性的流程。
如图8A所示,图像修复装置包括上下文特征确定单元和上下文预测单元。其中上下文特征确定单元和上下文预测单元可以实现为图3、图5中示出的上下文特征单元和上下文预测单元。通过将局部图像输入上下文特征确定单元可以确定局部图像的上下文特征,其中该上下文特征的尺寸可以和要生成的目标图像的尺寸相同。然后,可以通过组合局部图像的上下文特征和目标图像的尺寸信息确定用于预测目标的特征图。
例如,可以根据局部图像与目标图像之间需要填充的边缘区域的尺寸生成掩码M,其中M和目标图像的尺寸相同,通道数为1。在M中,已知的局部区域可以被标记为0,要填充的边缘区域可以被标记为1。可以理解的是,本领域技术人员可以采用其他方式在M中标记已知区域和未知区域,只要能够区分两个不同的区域即可。
然后可以将M和上下文特征确定单元输出的上下文特征相连接,即在通道数的方向上直接组合M和上下文特征,并将组合后的特征输入上下文预测单元。
通过利用上下文预测单元对组合后的特征进行处理,可以得到目标图像。
图8B至图8J示出了通过本申请提供的图像修复方法的一些效果图的实例。图8B和图8C示出了利用局部的动物脸部生成完整的动物图像的效果图8D示出了本申请提供的图像修复方法对纹理图像的修复效果,可以看出,相对于现有技术来说,利用本申请的方法得到的修复图像的纹理图案与输入图像的纹理图案的一致性更高。图8E-8G示出了利用本申请提供的图像修复方法对人物和动物的修复效果。可以看出,相对于现有技术来说,利用本申请的方法得到的修复图像中的人物信息和动物信息看起来更真实,没有出现违反自然规律的图像效果。图8H-8J示出了利用本申请提供的图像修复方法对景观的修复效果。可以看出,相对于现有技术来说,利用本申请的方法得到的修复图像中的景观信息的内容更丰富,纹理效果也更好。
此外,根据本申请实施例的方法或装置也可以借助于图9所示的计算设备的架构来实现。图9示出了该计算设备的架构。如图9所示,计算设备900可以包括总线910、一个或多个CPU 920、只读存储器(ROM)930、随机存取存储器(RAM)940、连接到网络的通信端口950、输入/输出组件960、硬盘970等。计算设备900中的存储设备,例如ROM 930或硬盘970可以存储本申请提供的用于定位电子设备的方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备900还可以包括用户界面980。当然,图9所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图9示出的计算设备中的一个或多个组件。
本申请的实施例也可以被实现为计算机可读存储介质。根据本申请实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本申请实施例的方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
本领域技术人员能够理解,本申请所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
此外,虽然本申请对根据本申请的实施例的系统中的某些单元做出了各种引用,然而,任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的,并且所述系统和方法的不同方面可以使用不同单元。
此外,本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (15)
1.一种图像处理方法,包括:
接收用于预测目标图像的输入图像;
确定所述输入图像的上下文特征;
基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据所述上下文特征确定第一特征集和第二特征集;
根据所述第一特征集的第一特征统计量调整第二特征集,得到调整后的第二特征集;以及
基于所述调整后的第二特征集和所述第一特征集生成所述目标图像。
2.如权利要求1所述的图像处理方法,所述目标图像由所述输入图像和预测图像构成,其中,
基于目标图像的尺寸以及所述输入图像在所述目标图像的中的位置在上下文特征中确定第一特征集和第二特征集包括:
基于所述目标图像的尺寸以及所述输入图像在所述目标图像的中的位置确定指示所述预测图像的区域的位置特征,
组合所述位置特征和所述上下文特征,并对组合的所述位置特征和所述上下文特征进行编码以获得目标特征;
基于所述输入图像在所述目标图像中的位置,将所述目标特征中与所述输入图像位置相对应的元素集合确定为第一特征集,将所述目标特征中与所述目标图像中的预测图像的位置相对应的元素集合确定为第二特征集。
3.如权利要求2所述的图像处理方法,其中,所述第一特征统计量是所述第一特征集中的元素的统计量。
4.如权利要求2所述的图像处理方法,其中基于根据所述第一特征集的第一特征统计量调整第二特征集包括:
改变所述第二特征集中各元素的值使得改变后的第二特征集的第二特征统计量和所述第一特征统计量相同,其中所述第二特征统计量是所述第二特征集中的元素的统计量。
5.如权利要求4所述的图像处理方法,其中基于根据所述第一特征集的第一特征统计量调整第二特征集还包括:
对于所述改变后的第二特征集中的每个元素,将该元素的值进一步改变为改变前的第二特征集中的该元素的值和改变后的第二特征集中该元素的值的加权平均值。
6.如权利要求5所述的图像处理方法,其中,基于调整后的第二特征集和所述第一特征集生成所述目标图像包括:
对由进一步改变后的第二特征集和第一特征集形成的调整后的目标特征进行解码,以生成所述目标图像。
7.如权利要求1-6任一项所述的图像处理方法,其中所述图像处理方法是通过深度神经网络实现的,所述深度神经网络是通过以下步骤训练的:
从训练样本集中确定一个样本图像,并在样本图像中随机确定局部图像作为深度神经网络的输入;
利用所述深度神经网络对所述局部图像进行处理,并输出基于该局部图像的目标图像;
调整所述深度神经网络的值使得所述目标图像和样本图像之间的损失最小,其中所述损失包括:
-所述样本图像与所述目标图像的像素差异。
8.如权利要求7所述的图像处理方法,其中所述损失还包括以下各项中的至少一项:
-所述样本图像与所述目标图像的纹理差异;
-所述样本图像与所述目标图像的对抗性损失。
9.一种图像处理装置,包括:
接收单元,配置成接收输入图像;
上下文特征确定单元,配置成确定所述输入图像的上下文特征;以及
特征集确定单元,配置成基于目标图像的尺寸以及所述输入图像在所述目标图像中的位置,根据所述上下文特征确定第一特征集和第二特征集;
调整单元,配置成根据所述第一特征集的第一特征统计量调整第二特征集,得到调整后的第二特征集;以及
目标图像生成单元,配置成基于所述调整后的第二特征集和所述第一特征集生成所述目标图像。
10.如权利要求9所述的图像处理装置,所述目标图像由所述输入图像和预测图像构成,其中,
所述特征集确定单元进一步配置成:
基于所述目标图像的尺寸以及所述输入图像在所述目标图像的中的位置确定指示所述预测图像的区域的位置特征,
组合所述位置特征和所述上下文特征,并对组合的所述位置特征和所述上下文特征进行编码以获得目标特征;
基于所述输入图像在所述目标图像中的位置,将所述目标特征中与所述输入图像位置相对应的元素集合确定为第一特征集,将所述目标特征中与所述目标图像中的预测图像的位置相对应的元素集合确定为第二特征集。
11.如权利要求10所述的图像处理装置,其中,所述第一特征统计量是所述第一特征集中的元素的统计量。
12.如权利要求10所述的图像处理装置,其中所述调整单元配置成改变所述第二特征集中各元素的值使得改变后的第二特征集的第二特征统计量和所述第一特征统计量相同,其中所述第二特征统计量是所述第二特征集中的元素的统计量。
13.如权利要求12所述的图像处理装置,其中,所述调整单元还配置成:
对于所述改变后的第二特征集中的每个元素,将该元素的值进一步改变为改变前的第二特征集中的该元素的值和改变后的第二特征集中该元素的值的加权平均值。
14.一种用于图像处理的设备,所述设备包括存储器和处理器,其中所述存储器中存有指令,当利用所述处理器执行所述指令时,使得所述处理器执行如权利要求1-8中任一项所述的图像修复方法。
15.一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如权利要求1-8中任一项所述的图像处理方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168409.7A CN109816615B (zh) | 2019-03-06 | 2019-03-06 | 图像修复方法、装置、设备以及存储介质 |
JP2021518654A JP7266828B2 (ja) | 2019-03-06 | 2020-02-13 | 画像処理方法、装置、デバイスおよびコンピュータプログラム |
EP20767229.6A EP3937124A4 (en) | 2019-03-06 | 2020-02-13 | METHOD, DEVICE AND APPARATUS FOR IMAGE PROCESSING, AND RECORDING MEDIUM |
PCT/CN2020/074990 WO2020177513A1 (zh) | 2019-03-06 | 2020-02-13 | 图像处理方法、装置、设备以及存储介质 |
KR1020217014602A KR102477794B1 (ko) | 2019-03-06 | 2020-02-13 | 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체 |
US17/372,311 US11983850B2 (en) | 2019-03-06 | 2021-07-09 | Image processing method and apparatus, device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910168409.7A CN109816615B (zh) | 2019-03-06 | 2019-03-06 | 图像修复方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109816615A true CN109816615A (zh) | 2019-05-28 |
CN109816615B CN109816615B (zh) | 2022-12-16 |
Family
ID=66608242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910168409.7A Active CN109816615B (zh) | 2019-03-06 | 2019-03-06 | 图像修复方法、装置、设备以及存储介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11983850B2 (zh) |
EP (1) | EP3937124A4 (zh) |
JP (1) | JP7266828B2 (zh) |
KR (1) | KR102477794B1 (zh) |
CN (1) | CN109816615B (zh) |
WO (1) | WO2020177513A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211205A (zh) * | 2019-06-14 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和存储介质 |
CN110390679A (zh) * | 2019-07-03 | 2019-10-29 | 上海联影智能医疗科技有限公司 | 图像处理方法、计算机设备和可读存储介质 |
CN111242874A (zh) * | 2020-02-11 | 2020-06-05 | 北京百度网讯科技有限公司 | 图像修复的方法、装置、电子设备和存储介质 |
WO2020177513A1 (zh) * | 2019-03-06 | 2020-09-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备以及存储介质 |
CN112818146A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于产品图像风格的推荐方法 |
CN116109798A (zh) * | 2023-04-04 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、设备及介质 |
WO2023225808A1 (en) * | 2022-05-23 | 2023-11-30 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Learned image compress ion and decompression using long and short attention module |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11820289B2 (en) | 2018-07-31 | 2023-11-21 | Sony Semiconductor Solutions Corporation | Solid-state imaging device and electronic device |
WO2020027233A1 (ja) | 2018-07-31 | 2020-02-06 | ソニーセミコンダクタソリューションズ株式会社 | 撮像装置及び車両制御システム |
CN110569864A (zh) * | 2018-09-04 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 基于gan网络的车损图像生成方法和装置 |
US11562518B2 (en) | 2020-06-05 | 2023-01-24 | Google Llc | Image manipulation by text instruction |
US11900519B2 (en) * | 2021-11-17 | 2024-02-13 | Adobe Inc. | Disentangling latent representations for image reenactment |
CN116664454B (zh) * | 2023-08-01 | 2023-11-03 | 中国海洋大学 | 一种基于多尺度颜色迁移参数预测的水下图像增强方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080238942A1 (en) * | 2007-03-29 | 2008-10-02 | Microsoft Corporation | Object-Based Image Inpainting |
US20090274386A1 (en) * | 2008-04-07 | 2009-11-05 | Panetta Karen A | Methods and apparatus for image restoration |
CN103049886A (zh) * | 2011-10-12 | 2013-04-17 | 方正国际软件(北京)有限公司 | 一种图像纹理修复方法及系统 |
CN103778603A (zh) * | 2014-01-08 | 2014-05-07 | 天津大学 | 显微ct中闪烁体缺陷引起的图像伪影的修复算法 |
CN104463161A (zh) * | 2013-09-24 | 2015-03-25 | 柯尼卡美能达美国研究所有限公司 | 使用自动图像修补的彩色文档图像分割和二值化 |
CN107092874A (zh) * | 2017-04-10 | 2017-08-25 | 山东大学 | 基于心电和指纹融合特征的身份识别方法、装置及系统 |
CN107993210A (zh) * | 2017-11-30 | 2018-05-04 | 北京小米移动软件有限公司 | 图像修复方法、装置及计算机可读存储介质 |
CN109191402A (zh) * | 2018-09-03 | 2019-01-11 | 武汉大学 | 基于对抗生成神经网络的图像修复方法和系统 |
CN109377448A (zh) * | 2018-05-20 | 2019-02-22 | 北京工业大学 | 一种基于生成对抗网络的人脸图像修复方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8325822B2 (en) * | 2006-01-20 | 2012-12-04 | Qualcomm Incorporated | Method and apparatus for determining an encoding method based on a distortion value related to error concealment |
KR102455843B1 (ko) * | 2016-03-21 | 2022-10-19 | 한국전자통신연구원 | 영상 재구성 장치 및 방법 |
CN109816615B (zh) * | 2019-03-06 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 图像修复方法、装置、设备以及存储介质 |
-
2019
- 2019-03-06 CN CN201910168409.7A patent/CN109816615B/zh active Active
-
2020
- 2020-02-13 EP EP20767229.6A patent/EP3937124A4/en active Pending
- 2020-02-13 WO PCT/CN2020/074990 patent/WO2020177513A1/zh unknown
- 2020-02-13 KR KR1020217014602A patent/KR102477794B1/ko active IP Right Grant
- 2020-02-13 JP JP2021518654A patent/JP7266828B2/ja active Active
-
2021
- 2021-07-09 US US17/372,311 patent/US11983850B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080238942A1 (en) * | 2007-03-29 | 2008-10-02 | Microsoft Corporation | Object-Based Image Inpainting |
US20090274386A1 (en) * | 2008-04-07 | 2009-11-05 | Panetta Karen A | Methods and apparatus for image restoration |
CN103049886A (zh) * | 2011-10-12 | 2013-04-17 | 方正国际软件(北京)有限公司 | 一种图像纹理修复方法及系统 |
CN104463161A (zh) * | 2013-09-24 | 2015-03-25 | 柯尼卡美能达美国研究所有限公司 | 使用自动图像修补的彩色文档图像分割和二值化 |
CN103778603A (zh) * | 2014-01-08 | 2014-05-07 | 天津大学 | 显微ct中闪烁体缺陷引起的图像伪影的修复算法 |
CN107092874A (zh) * | 2017-04-10 | 2017-08-25 | 山东大学 | 基于心电和指纹融合特征的身份识别方法、装置及系统 |
CN107993210A (zh) * | 2017-11-30 | 2018-05-04 | 北京小米移动软件有限公司 | 图像修复方法、装置及计算机可读存储介质 |
CN109377448A (zh) * | 2018-05-20 | 2019-02-22 | 北京工业大学 | 一种基于生成对抗网络的人脸图像修复方法 |
CN109191402A (zh) * | 2018-09-03 | 2019-01-11 | 武汉大学 | 基于对抗生成神经网络的图像修复方法和系统 |
Non-Patent Citations (6)
Title |
---|
DMITRY ULYANOV 等: "Instance Normalization:The Missing Ingredient for Fast Stylization", 《ARXIV》 * |
XIAN WU 等: "Deep Portrait Image Completion and Extrapolation", 《ARXIV》 * |
XUN HUANG 等: "Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization", 《ARXIV》 * |
YI WANG 等: "Image Inpainting via Generative Multi-column Convolutional Neural Networks", 《ARXIV》 * |
李梦雪 等: "划分特征子区域的图像修复算法", 《计算机应用》 * |
舒彬 等: "基于HSI梯度统计特性的图像修复算法", 《光电子·激光》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020177513A1 (zh) * | 2019-03-06 | 2020-09-10 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备以及存储介质 |
US11983850B2 (en) | 2019-03-06 | 2024-05-14 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, device, and storage medium |
CN110211205A (zh) * | 2019-06-14 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和存储介质 |
CN110211205B (zh) * | 2019-06-14 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和存储介质 |
CN110390679A (zh) * | 2019-07-03 | 2019-10-29 | 上海联影智能医疗科技有限公司 | 图像处理方法、计算机设备和可读存储介质 |
CN111242874A (zh) * | 2020-02-11 | 2020-06-05 | 北京百度网讯科技有限公司 | 图像修复的方法、装置、电子设备和存储介质 |
CN111242874B (zh) * | 2020-02-11 | 2023-08-29 | 北京百度网讯科技有限公司 | 图像修复的方法、装置、电子设备和存储介质 |
CN112818146A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于产品图像风格的推荐方法 |
WO2023225808A1 (en) * | 2022-05-23 | 2023-11-30 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Learned image compress ion and decompression using long and short attention module |
CN116109798A (zh) * | 2023-04-04 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、设备及介质 |
CN116109798B (zh) * | 2023-04-04 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2022504292A (ja) | 2022-01-13 |
EP3937124A1 (en) | 2022-01-12 |
EP3937124A4 (en) | 2022-04-27 |
JP7266828B2 (ja) | 2023-05-01 |
KR102477794B1 (ko) | 2022-12-14 |
CN109816615B (zh) | 2022-12-16 |
US11983850B2 (en) | 2024-05-14 |
KR20210074360A (ko) | 2021-06-21 |
US20210334942A1 (en) | 2021-10-28 |
WO2020177513A1 (zh) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816615A (zh) | 图像处理方法、装置、设备以及存储介质 | |
CN110473141B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
Svoboda et al. | Two-stage peer-regularized feature recombination for arbitrary image style transfer | |
CN110097086A (zh) | 图像生成模型训练方法、图像生成方法、装置、设备及存储介质 | |
CN110097609B (zh) | 一种基于样本域的精细化绣花纹理迁移方法 | |
CN108734749A (zh) | 图像的视觉风格变换 | |
CN107948529A (zh) | 图像处理方法及装置 | |
CN110415184B (zh) | 一种基于正交元空间的多模态图像增强方法 | |
CN110298446A (zh) | 面向嵌入式系统的深度神经网络压缩和加速方法及系统 | |
CN110197716A (zh) | 医学影像的处理方法、装置及计算机可读存储介质 | |
CN112950640A (zh) | 视频人像分割方法、装置、电子设备及存储介质 | |
CN114067041A (zh) | 三维模型的材质生成方法、装置、计算机设备和存储介质 | |
CN114266693A (zh) | 图像处理方法、模型生成方法及设备 | |
CN112862672B (zh) | 刘海生成方法、装置、计算机设备和存储介质 | |
CN108470208A (zh) | 一种基于原始生成对抗网络模型的分组卷积方法 | |
CN108230253A (zh) | 图像恢复方法、装置、电子设备和计算机存储介质 | |
CN110517200A (zh) | 人脸草绘图的获取方法、装置、设备及存储介质 | |
Li et al. | Fast portrait segmentation with highly light-weight network | |
CN112561822B (zh) | 美颜方法、装置、电子设备及存储介质 | |
CN114373033A (zh) | 图像处理方法、装置、设备、存储介质及计算机程序 | |
CN114077885A (zh) | 基于张量分解的模型压缩方法、装置和服务器 | |
CN114332470A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN116246009B (zh) | 虚拟形象处理方法及装置 | |
CN113344181B (zh) | 神经网络的结构搜索方法、装置、计算机设备及存储介质 | |
CN115222836A (zh) | 基于对抗学习的图像生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |