CN111784799B

CN111784799B - 图像填充方法、装置、设备及存储介质

Info

Publication number: CN111784799B
Application number: CN202010612254.4A
Authority: CN
Inventors: 李超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-01-12
Anticipated expiration: 2040-06-30
Also published as: CN111784799A

Abstract

本申请实施例公开了一种图像填充方法、装置、设备及存储介质，涉及人工智能、深度学习、计算机视觉、图像填充技术领域，图像填充方法包括：对待填充图像进行实例分割，得到所述待填充图像对应的实例分割图，所述实例分割图包括至少一个缺失区域；对所述实例分割图进行补全处理，得到补全后的实例分割图；基于所述补全后的实例分割图，对所述待填充图像进行填充处理，得到填充后的图像。利用本申请能够实现高质量的图像填充。

Description

图像填充方法、装置、设备及存储介质

技术领域

本申请涉及人工智能、深度学习、计算机视觉、图像填充技术领域，具体地，涉及一种图像填充方法、装置、设备以及存储介质。

背景技术

图像填充技术有广泛的应用场景，例如图像编辑、图像修复、移除图像中的特定物体，等等。现有图像填充技术大多基于块匹配或纹理匹配的方法，使用普通的卷积神经网络处理，存在填充效果不够真实，纹理不自然，人工瑕疵明显，效率低下等问题。

发明内容

本申请提供了一种图像填充方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种图像填充方法，包括：对待填充图像进行实例分割，得到所述待填充图像对应的实例分割图，所述实例分割图包括至少一个缺失区域；

对所述实例分割图进行补全处理，得到补全后的实例分割图；

基于所述补全后的实例分割图，对所述待填充图像进行填充处理，输出填充后的图像。

根据本申请的第二方面，提供了一种图像填充方法装置，包括：

实例分割模块，用于对待填充图像进行实例分割，得到所述待填充图像对应的实例分割图，所述实例分割图包括至少一个缺失区域；

实例补全模块，对所述实例分割图进行补全处理，得到补全后的实例分割图；

图像填充模块，用于基于所述补全后的实例分割图，对所述待填充图像进行填充处理，输出填充后的图像。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如上所述的方法。

根据本申请的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

本申请实施例利用补全后的实例分割图作为辅助信息，携带图像中缺失部分的实例分割信息，这部分实例分割信息能够帮助强化填充处理的效果，使填充后的图像更加逼真。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是一个示意性地原始图像。

图2是对图1中图像进行语义分割后的图像。

图3是对图1中图像进行实例分割后的图像。

图4是本申请一个实施例的图像填充方法的流程框图；

图5是本申请一个实施例的图像填充装置的结构框图；

图6是本申请一个实施例的示意性的待填充图像；

图7是本申请另一实施例的图像填充方法的逻辑过程图；

图8是对图6实施例进行图像填充处理后得到的示意性的图像；

图9是实现本申请实施例的图像填充方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了更清楚地描述本申请的实施例，首先对深度学习领域中图像的语义分割和实例分割的相关内容进行简要描述。

关于语义分割(Semantic Segmentation)：可将图像中的像素标注为对应的物体类别，同一类别物体的不同实例不进行单独分割。

关于实例分割(Instance segmentation)：基于物体检测(Object Detect)的边框，对于图像中属于同一类别的多个物体，实例分割可对多个物体中的各个个体进行区别标注；相对于语义分割，实例分割的标注精度较高，语义分割可精确到同一类物体的整体外边框，实例分割可精确到各个物体本身的边缘和轮廓。

参考图1-3，其中图1是原始图像，图2是语义分割后的图像，图3是实例分割后的图像，可以看到，图1原始图像中部区域有一个桌子和多个椅子，图2的语义分割图像中桌子被标注为浅色，多个椅子(属于同一类别)全部被标注为深色，同一类别物体不加区分；与图2的语义分割不同，图3的实例分割图像中，各个椅子分别被标注为不同的颜色，并且能够对椅子不同部分的边缘和轮廓进行标注区分。

本申请的实施例基于图像的实例分割信息，图4示出了本申请实施例的图像填充方法的流程框图，包括如下步骤：

S101，对待填充图像I_i进行实例分割，得到多个实例分割图，多个实例分割图中包括至少一个有缺失的实例分割图instance_i；

S102，对至少一个有缺失的实例分割图instance_i进行补全处理，得到补全后的实例分割图instance_o；

S103，基于补全后的实例分割图instance_o，对待填充图像I_i进行填充处理，输出填充后的图像I_o。

在本申请的实施例中，待填充的图像I_i是有缺失的图像，例如已将图像中希望删除的目标物去除，因此本申请实施例的待填充图像I_i不是完整的图像，图像中缺失的部分区域即是待填充的区域。

根据本申请的实施例，对于待填充图像I_i并不是使用神经网络模型直接进行填充处理，而是首先对有缺失的待填充图像做实例分割，可得到多个实例分割图，各个实例分割图对应图像中的一个物体或一片区域等，其中，由于待填充图像中有缺失，因此对该缺失的部分也会生成对应的实例分割图instance_i，其中对应位置处是缺失的，其余区域为携带有实例分割信息的图像。

这里，待填充图像I_i中的缺失区域可以是一个，也可以是多个，因此实例分割处理后，带有缺失的实例分割图instance_i的数目可能是一个，也可能是多个。以下以有缺失的实例分割图instance_i的数目为一个进行描述，多个的情况可做相同处理。

根据本申请的实施例，接着对有缺失的实例分割图instance_i进行补全处理，由于补全处理的基础是经过实例分割而生成的有缺失的实例分割图instance_i，而非普通的有缺失图像，也就是说，本申请实施例步骤S102中的补全处理是基于实例分割图instance_i中的实例分割信息进行的补全，使得补全后的实例分割图instance_o中携带了缺失部分的实例分割信息，有利于强化后续步骤S103的填充效果。

具体地，步骤S103基于补全后的实例分割图instance_o对待填充图像I_i进行填充，这里，补全后的实例分割图instance_o作为辅助信息，包含了缺失部分的实例分割信息，因此相当于在对待填充图像I_i做填充时系统已获得了缺失部分的实例分割信息，这部分实例分割信息能够强化填充处理的效果，使填充效果更加符合视觉语义，填充后的图像更加逼真。

与上述方法实施例相对应地，本申请实施例还提供一种图像填充装置100，参考图5，包括：

实例分割模块101，用于对待填充图像I_i进行实例分割，得到所述待填充图像I_i对应的实例分割图，所述实例分割图包括至少一个缺失区域；

实例补全模块102，对所述实例分割图instance_i进行补全处理，得到补全后的实例分割图instance_o；

图像填充模块103，用于基于所述补全后的实例分割图instance_o，对所述待填充图像I_i进行填充处理，输出填充后的图像I_o。

在本申请实施例的图像填充装置100中，实例分割模块101、实例补全模块102和图像填充模块103可以是由深度神经网络训练而生成的神经网络模型，具体地：

实例分割模块101是利用第一类训练数据对神经网络进行训练而生成的，所述第一类训练数据包括：待填充图像和对应的实例分割图，其中所述实例分割图中包括至少一个缺失区域；

实例补全模块102是利用第二类训练数据对神经网络进行训练而生成的，所述第二类训练数据包括：有缺失的实例分割图和对应的补全后的实例分割图；

图像填充模块103是利用第三类训练数据对神经网络进行训练而生成的，所述第三类训练数据包括：待填充图像与补全后的实例分割图的拼接矩阵和对应的填充后的图像。

在本申请实施例中，利用前述的第一类训练数据、第二类训练数据和第三类训练数据，分别训练神经网络(例如卷积神经网络、循环神经网络或其他类型神经网络)，能够分别得到可对输入的图像进行实例分割的神经网络模型(实例分割模块101)、可基于实例分割信息对有缺失图像进行实例补全的神经网络模型(实例补全模块102)，以及能够基于待填充图像和补全的实例分割图像进行图像填充的神经网络模型(图像填充模块103)。

训练完成后，可将各个神经网络模型或称模块进行逻辑连接，得到图像填充装置100。使用时，将待填充图像输入该图像填充装置中，经过各个模块处理之后，可输出填充好的图像。

在本申请实施例的图像填充装置100中，所述补全后的实例分割图instance_o与所述待填充图像I_i各自对应矩阵的长宽维度相同，且图像通道数不同；图像填充装置100还包括：拼接模块，用于对所述补全后的实例分割图instance_o的矩阵与所述待填充图像I_i的矩阵在通道维度上进行拼接，并将拼接后的矩阵发送给图像填充模块。

本申请实施例的图像填充装置100还包括：预处理模块，用于将目标图像中的目标区域去除，得到待填充图像I_i，所述待填充图像中缺失的区域为待填充区域。

在本申请实施例的图像填充装置100中，所述补全后的实例分割图instance_o中包括所述待填充图像中缺失部分的实例信息；所述图像填充模块103用于基于所述补全后的实例分割图instance_o中的所述缺失部分的实例信息，对所述待填充图像I_i进行填充处理。

本申请实施例的图像填充装置100中的各个模块的功能与前述方法实施例中描述的内容相对应，也就是，图像填充装置100中的各个模块可用于实现前述图像填充方法的各个步骤。以下通过具体实施例详细描述本申请实施例的实现方式。

参考图6，示意性地示出了本申请一个实施例的待填充图像I_i，为描述方便，图6中以涂色的方式将希望去除的物体标出，即海边沙滩上的一对躺椅。

根据本申请实施例的图像填充方法，可选地，预处理模块可对目标图像进行预处理：将目标图像中的目标区域去除，得到待填充图像I_i，所述待填充图像中缺失的区域为待填充区域。

在图6实施例中，目标原始图像为包含躺椅的海滩图片，可通过已知的图像分割技术(例如边缘分割、语义分割的方式)，将躺椅从原始图片中抠除，可得到有缺失的待填充图像I_i，即缺失躺椅区域的海滩图像，缺失的区域就是待填充的区域。

图7示意性地示出了本申请实施例的图像填充方法的逻辑过程图，结合图7来看，实例分割模块101对有缺失的待填充图像I_i进行实例分割，由于海滩图像中部的躺椅已经清除，该区域缺失，则可得到一个海滩中部缺失的实例分割图像instance_i；

然后，实例补全模块102对该海滩中部缺失的实例分割图像instance_i进行补全，由于携带了海滩图像中其他区域的实例分割信息，例如：海、沙滩、树、树的倒影等等的实例分割信息，那么在补全处理时，能够根据缺失区域的四周的实例分割信息，来对中部的缺失部分进行补全，基于此，补全的部分大致会包含以下至少一种像素：海、沙滩、树、树的倒影等，得到补全后的、完整的该海滩的实例分割图instance_o。

在本申请的实施例中，可选地，补全后的实例分割图instance_o与待填充图像I_i各自对应矩阵的长宽维度相同，且图像通道数不同，例如，补全后的实例分割图instance_o的特征表示为三维矩阵[w,h,c1]，待填充图像I_i的特征表示为三维矩阵[w,h,c2]，其中，w和h分别为长和宽，c1为补全后的实例分割图instance_o的通道数，c2为待填充图像I_i的通道数。

基于上述特征，根据本申请实施例的图像填充方法，可选地，可对补全后的实例分割图instance_o的矩阵与待填充图像I_i的矩阵在通道维度上进行拼接，以拼接后的矩阵作为填充处理的对象。

具体地，可通过特征变换操作，将补全后的实例分割图instance_o的矩阵[w,h,c1]与待填充图像I_i的矩阵[w,h,c2]在通道维度上拼接，可得到三维矩阵[w,h,c1+c2]，通过这种拼接处理能够使两者的特征融合，达到强化整体填充效果的目的。

最后，图像填充模块103基于补全后的实例分割图instance_o进行填充时，具体可基于补全后的实例分割图instance_o中的缺失部分的实例信息对待填充图像I_i进行填充处理。其中，instance_o作为辅助信息包含缺失部分的实例分割信息，这部分实例分割信息能够强化填充处理的效果。

图8示意性地示出了填充后的图像I_o，可以看到，图8中对躺椅对应区域的填充融合了沙滩和树的倒影的特征，填充效果逼真、自然。

基于以上内容，本申请的实施例采用了一种由简到难的处理策略，先补全、恢复图像中缺失部分的实例instance，然后基于填充后的实例分割图，来完成图像填充，能达到更好的填充效果，使得图像整体呈现逼真、自然的视觉效果。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。如图9所示，是根据本申请实施例的图像填充方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的图像填充方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像填充方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像填充方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像填充方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据搜索结果的分析处理电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至搜索结果的分析处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例的图像填充方法对应的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，本申请图9实施例中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与搜索结果的分析处理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像填充方法，包括：

对待填充图像进行实例分割，得到所述待填充图像对应的实例分割图，所述实例分割图包括至少一个缺失区域；

基于所述补全后的实例分割图，对所述待填充图像进行填充处理，得到填充后的图像；

所述补全后的实例分割图与所述待填充图像各自对应矩阵的长宽维度相同，且图像通道数不同；

在所述基于所述补全后的实例分割图，对所述待填充图像进行填充处理之前，所述方法还包括：

对所述补全后的实例分割图的矩阵与所述待填充图像的矩阵在通道维度上进行拼接，以拼接后的矩阵作为所述填充处理的对象；

其中，所述对所述实例分割图进行补全处理，包括：根据所述缺失区域的四周的实例分割信息，对中部的缺失部分进行补全。

2.根据权利要求1所述的方法，在所述对待填充图像进行实例分割之前，所述方法还包括：

将目标图像中的目标区域去除，得到待填充图像，所述待填充图像中缺失的区域为待填充区域。

3.根据权利要求1所述的方法，其中，

所述补全后的实例分割图中包括所述待填充图像中缺失部分的实例信息；

所述基于所述补全后的实例分割图，对所述待填充图像进行填充处理，包括：

基于所述补全后的实例分割图中的所述缺失部分的实例信息，对所述待填充图像进行填充处理。

4.根据权利要求1-3中任一项所述的方法，其中，

所述实例分割、所述补全处理以及所述填充处理分别由实例分割模块、实例补全模块以及图像填充模块执行，其中，

所述实例分割模块是利用第一类训练数据对神经网络进行训练而生成的，所述第一类训练数据包括：待填充图像和对应的实例分割图，其中所述实例分割图中包括至少一个缺失区域；

所述实例补全模块是利用第二类训练数据对神经网络进行训练而生成的，所述第二类训练数据包括：有缺失的实例分割图和对应的补全后的实例分割图；

所述图像填充模块是利用第三类训练数据对神经网络进行训练而生成的，所述第三类训练数据包括：待填充图像与补全后的实例分割图的拼接矩阵和对应的填充后的图像。

5.一种图像填充装置，包括：

实例补全模块，用于对所述实例分割图进行补全处理，得到补全后的实例分割图；

图像填充模块，用于基于所述补全后的实例分割图，对所述待填充图像进行填充处理，输出填充后的图像；

其中，所述补全后的实例分割图与所述待填充图像各自对应矩阵的长宽维度相同，且图像通道数不同；

所述装置还包括：

拼接模块，用于对所述补全后的实例分割图的矩阵与所述待填充图像的矩阵在通道维度上进行拼接，并将拼接后的矩阵发送给所述图像填充模块；

6.根据权利要求5所述的装置，还包括：

预处理模块，用于在所述实例分割模块进行实例分割之前，将目标图像中的目标区域去除，得到待填充图像，所述待填充图像中缺失的区域为待填充区域。

7.根据权利要求5所述的装置，其中，

所述图像填充模块用于基于所述补全后的实例分割图中的所述缺失部分的实例信息，对所述待填充图像进行填充处理。

8.根据权利要求5-7中任一项所述的装置，其中，

9. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至4中任一项所述的方法。