CN117557474A

CN117557474A - 基于多尺度语义驱动的图像修复方法及系统

Info

Publication number: CN117557474A
Application number: CN202311582232.8A
Authority: CN
Inventors: 钟华; 唐裕香; 冯亚沛; 王梦圆; 黄建华; 张泳琪; 高聪; 孙小严
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-02-13

Abstract

本发明公开了一种基于多尺度语义驱动的图像修复方法及系统，方法步骤如下：步骤一，获取图像数据集以及不规则掩膜数据集，并对数据集中的图像进行预处理；步骤二，将破损图像与对应的掩膜图像输入图像修复网络中进行修复。本发明细化了低级纹理特征，提高了图像修复的质量。本发明在复杂背景下，可以结合低级纹理特征和高级语义特征生成合理且清晰的视觉细节。

Description

基于多尺度语义驱动的图像修复方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多尺度语义驱动的图像修复方法及系统。

背景技术

图像修复是一种基于图像完好的区域像素，填充图像的破损区域像素，从而实现重建图像的技术，该技术在日常生活的各种领域中都有着重要应用，例如老照片和商业广告图像修复、医学成像、艺术保护以及图像编辑软件等。近些年来，图像修复技术取得了很大的进展，当背景简单或者缺陷小而规则时，可以生成逼真的视觉细节，但是面对复杂场景时，仍然会由于语义模糊而导致纹理模糊以及结构扭曲。

一个好的图像修复方法应该是结合低级纹理特征和高级语义特征生成合理且清晰的视觉细节。在复杂场景下，图像中存在的完整像素较少，无法从遥远的背景推断出图像内容，在修复大型随机不规则复杂图像时，导致结果中的结构扭曲和伪影，降低了图像修复的清晰度和逼真度。基于此，本发明提出了一种基于多尺度语义驱动的图像修复方法及系统。

发明内容

针对上述现状，本发明提出了一种基于多尺度语义驱动的图像修复方法及系统，解决了复杂场景下由于语义模糊而导致图像纹理模糊和结构扭曲的问题，保持了复原图像整体内容的一致性，使得修复结果结构合理、纹理清晰，且修复区域的清晰度与已知区域基本相同。

本发明采取如下技术方案：

一种基于多尺度语义驱动的图像修复方法，具体步骤如下：

步骤一，数据获取及预处理：获取图像数据集以及不规则掩膜数据集，并对数据集中的图像进行预处理；

步骤二，语义驱动生成网络及计算损失函数：将破损图像与对应的掩膜图像输入图像修复网络中进行修复。

优选的，步骤一具体如下：

步骤1.1)，获取图像数据集以及不规则掩膜数据集，并对数据集中的图像进行中心裁剪，再使用双线性插值法将完整图像和掩膜图像调整为同样大小。其中，图像数据集和不规则掩膜数据集均分别包括训练集和测试集。

步骤1.2)，将数据集中调整大小后的图像与掩膜图像进行结合，得到破损图像。所述掩膜为二值图像，使用矩阵点乘，使掩膜图像黑色区域对应的完整图像位置像素保持不变，掩膜图像白色区域对应完整图像位置的像素置为0，从而得到破损图像。

优选的，步骤1.1)中：

步骤1.1.1)，计算待插值点P(x,y)的横向距离和纵向距离与已知像素点P₁(x₁,y₁)、P₂(x₂,y₂)的距离比例u、v：

u＝(x-x₁)/(x₂-x₁)

v＝(y-y₁)/(y₂-y₁)

其中，P(x,y)表示P₁(x₁,y₁)和P₂(x₂,y₂)之间待插值的点，u和v的取值范围都在0和1之间。

步骤1.1.2)，分别在水平和垂直方向上进行线性插值；根据已知像素点P₁和P₂的像素值f₁(x₁,y₁)和f₂(x₂,y₂)，计算在横坐标x处的插值结果f_x(x,y)和纵坐标y处的插值结果f_y(x,y)：

f_x(x,y)＝(1-u)×f₁(x₁,y₁)+u×f₂(x₂,y₂)

f_y(x,y)＝(1-v)×f₁(x₁,y₁)+v×f₂(x₂,y₂)

步骤1.1.3)，利用上述水平和垂直方向的插值结果，进行加权平均得到最终的插值结果f(x,y)：

f(x,y)＝(1-u)×(1-v)×f₁(x₁,y₁)+u×(1-v)×f₂(x₂,y₂)+(1-u)×v×f₁(x₁,y₁)+u×v×f₂(x₂,y₂)

优选的，步骤二中，将上述步骤得到的破损图像与对应的掩膜图像一起输入到图像修复网络中，进行前向传递；主干网络主要包括3个部分，分别为语义先验学习器、聚合多尺度语义生成器以及掩膜引导判别器，具体如下：

2.1)阶段1：语义先验学习器

语义先验学习器左侧采用一个U-Net结构的金字塔模型，实现采样后破损图像多尺度低级特征提取，右侧借助一个前置多标签分类模型P来提炼采样后完整图像的多尺度语义特征，来作为语义学习的监督。这个前置模型使用非对称损失(ASL)在OpenImagedataset数据集上训练，不对其做修改。使用L1重构损失多尺度低级特征和多尺度语义特征映射为多尺度语义先验，再通过残差块处理，获取多尺度语义结构金字塔，实现语义和结构的交互。语义先验学习器具体如下：

步骤2.1.1)，将步骤一预处理过后的完整图像I_full上采样得到I'_full，将采样后的图像I'_full输入前置模型P中得到N个多尺度语义特征图：

其中，语义特征图的大小为/>n表示当前尺度数，h和w分别为完整图像I_full的高和宽；

步骤2.1.2)，将步骤一中得到的破损图像I_broken上采样得到I′_broken，与之对应的掩膜图像I_mask上采样得到I'_mask；上采样之后的破损图像与掩膜图像一起输入语义先验学习器E_s，包含N个下采样层和一个残差块：

其中，特征图是从破损图像可视像素中学习到的图像表示，空间大小与语义特征图/>保持一致；将分辨率最小的特征图/>送入多个残差块中获取最小尺度(即尺度为N)的语义信息/>接着采用串联的方式将前一阶段的语义信息上采样并与下一尺度特征图一起作为输入送入残差块，获取下一尺度的语义信息，即在金字塔的不同分辨率上获取不同尺度的语义信息：

其中，U表示使用pixelshuffle算法进行上采样操作，和/>表示尺度为n时的语义信息和破损图像的编码特征；

步骤2.1.3)获取破损图像的多尺度语义先验信息：

其中，1×1卷积层使其与前置模型输出通道保持一致，⊙表示哈达玛积，α是对破损区域的附加约束，和/>分别是尺度为n时对应的掩膜和完整图像语义特征图，它们空间大小相同；最后，使用残差模块将多尺度语义先验F_prior映射为多尺度语义结构为下一步细化局部纹理特征做准备。

2.2)阶段2：聚合多尺度语义生成器

采用由3个卷积层构建的纹理特征编码器对采样前的破损图像编码，获取破损图像的局部纹理特征。使用阶段1获取的多尺度语义结构金字塔作为语义指导，逐步细化局部纹理特征。由于多尺度语义结构金字塔注重全局语义信息，而局部纹理特征更关注纹理和局部结构，所以不能直接融合这两个图像特性。

为了自适应的将语义结构合并到纹理特征编码中，借用空间自适应归一化模块(SPADE)的思想，设计了聚合多尺度语义生成器模块(ASG)。其中，纹理特征先用非参数实例归一化(IN)，然后，分别从不同尺度语义结构中学习两组不同的参数λⁿ和θⁿ，对纹理特征进行空间像素仿射变换，实现全局上下文融合。聚合多尺度语义生成器具体如下：

步骤2.2.1)，将步骤一中预处理后的破损图像I_broken以及与之相对应的掩膜图像I_mask共同输入到由3个卷积层构建的纹理特征编码器E_text中，提取破损图像的局部纹理特征F_text：

F_text＝E_text(I_broken,I_mask)

步骤2.2.2)，将语义先验学习器中获取的多尺度语义结构作为语义指导，逐步细化语义先验学习器中的局部纹理特征F_text，对于不同尺度的语义结构，应用不同数量的SPADE残差模块。每个SPADE残差模块后连接一个上采样层：

其中，表示第n个尺度语义结构细化之后的纹理特征图，I_out表示生成器最终生成的修复图像。在SPADE残差快内部，纹理特征F_text先用非参数实例归一化(IN)，然后分别从不同尺度语义结构/>中学习两组不同的参数λⁿ和θⁿ，对纹理特征进行空间像素仿射变换：

其中，λⁿ和θⁿ分别表示从不同尺度语义结构中学习到的归一化系数和偏置系数，表示经过尺度为n的语义结构/>细化后的纹理特征。

2.3)阶段3：掩膜引导判别器

相比于全局判别器直接将修复图像判定为假，而忽略了破损区域外的部分是来自真实图像，本发明使用掩膜引导的判别器区分修复图像中的合成区域和非合成区域，生成更加逼真的纹理。

判别器由4个卷积层构成，每一层都将图像特征层缩小指原来的一半。将完整的图像I_full和修复后的图像I_out共同作为判别器的输入，最终输出一个M×M的预测图，预测图的每一个像素表示输入图像中M×M的补丁的真假。

优选的，计算损失函数：

生成器损失函数由重建损失、感知损失、对抗损失和语义先验损失四部分组成；判别器的损失函数为对抗损失，公式分别如下：

其中，L_G和L_D分别为生成器和判别器的损失函数，ω₁、ω₂、ω₃和ω₄分别代表重建损失、感知损失、对抗损失和语义先验损失的权重；L_re表示重建损失，L_fm表示感知损失，L_prior表示语义先验损失，表示生成器的对抗损失，/>表示判别器的对抗损失。

3.1)重建损失公式如下：

其中，I_full表示未破损的完整图像，I_out表示修复后的图像，I_mask表示掩膜图像，表示对破损区域的额外约束。

3.2)感知损失公式如下：

L_fm＝∑_iω_i|φ_i(I_out)-φ_i(I_full)||

感知损失以VGG16网络作为基础计算的。其中，ω_i表示VGG16网络的第i层网络结构的权重参数，φ_i是VGG16网络的第i层特征图。

3.3)对抗损失公式如下：

其中，判别器D的输出代表生成图像I_out和完整图像I_full的相似性，被用来驱动生成器G生成更逼真的图像。

3.4)语义先验损失公式如下：

其中，和/>分别为前述步骤2.1.1)和2.1.2)中得到的特征图，/>为尺度为n的掩膜图像，α是对破损区域的附加约束。

本发明还公开了一种基于多尺度语义驱动的图像修复系统，基于上述方法，其包括如下模块：

数据获取及预处理模块：获取图像数据集以及不规则掩膜数据集，并对数据集中的图像进行预处理；

修复模块：将破损图像与对应的掩膜图像输入图像修复网络中进行修复。

与现有技术相比，本发明的有益效果在于：

本发明设计了一种基于多尺度语义驱动的图像修复方法及系统，针对目前复杂背景下，修复大型随机不规则图像存在的问题，首先借用金字塔模型和多标签分类模型构建语义先验学习器，获取多尺度语义先验信息；再将语义先验信息通过残差块进行处理，得到多尺度语义结构金字塔。

本发明提出一个空间自适应归一化语义聚合结构，使用多尺度语义结构金字塔自适应的细化图像纹理特征，实现破损图像全局上下文的语义理解，从而在破损区域生成合理的结构和清晰的纹理细节。

附图说明

图1为本发明优选实施例一种基于多尺度语义驱动的图像修复方法流程图。

图2为本发明优选实施例图像修复的网络结构图；其中，(a)为语义先验学习器，(b)为聚合多尺度语义生成器，(c)为掩膜引导判别器。

图3为本发明在Paris StreetView数据集的修复结果；其中，(a)为破损图像，(b)为SPL，(c)为SPN，(d)为本发明，(e)为真实图像。

图4为本发明在CelebA数据集的修复结果；其中，(a)为破损图像，(b)为SPL，(c)为SPN，(e)为真实图像。

图5为本发明在Places365-Challenge数据集的修复结果；其中，(a)为破损图像，(b)为SPL，(c)为SPN，(d)为本发明，(e)为真实图像。

图6为本发明优选实施例一种基于多尺度语义驱动的图像修复系统框图。

具体实施方式

为了更加清楚的展示本发明的目的、技术优势，结合附图及实施例，对本发明做出进一步解释说明。

本优选实施例在Paris StreetView、CelebA和Places365-Challenge数据集上进行，利用12000张不规则掩膜数据集构建破损图像。其中，Paris StreetView数据集包含14900个训练样本和100个测试样本；CelebA包含20万张图片，其中，训练集有162700张图像，测试集的有37300张图像，实验随机选取测试集的12000张作为测试样本；Places365-Challenge数据集包含了365个场景中的200万张图像，实验选取5个完整类别，获得20万张图像，其中每个类别中随机抽取4000张图像作为测试集，剩下的18万张图像作为训练集。本实施例具体步骤如下：

步骤一，数据获取以及预处理；

步骤1.1)，获取图像数据集以及不规则掩膜数据集，对数据集中的图像进行中心裁剪，再使用双线性插值法将图像大小调整为同样大小。图像数据集和不规则掩膜数据集均包括训练集和测试集。双线性插值具体流程如下：

u＝(x-x₁)/(x₂-x₁)

v＝(y-y₁)/(y₂-y₁)

f_x(x,y)＝(1-u)×f₁(x₁,y₁)+u×f₂(x₂,y₂)

f_y(x,y)＝(1-v)×f₁(x₁,y₁)+v×f₂(x₂,y₂)

1.1.3)利用上述水平和垂直方向的插值结果，进行加权平均得到最终的插值结果f(x,y)：

步骤1.2)，将数据集中调整大小后的图像与掩膜图像进行结合，得到破损图像。即掩膜图像黑色区域对应的图像位置像素保持不变，掩膜图像白色区域对应位置的像素置为0，从而得到破损图像。

步骤二，语义驱动生成网络及计算损失函数；

将上述过程得到的破损图像与对应的掩膜图像一起输入到图像修复网络中，进行前向传递；如图2所示，主干网络主要包括3个部分，分别为语义先验学习器、聚合语义生成器以及掩膜引导判别器，具体如下：

2.1)阶段1：语义先验学习器

语义先验学习器是借助一个前置多标签分类模型P作为监督来获取损坏图像的全局语义特征。这个前置模型使用非对称损失(ASL)在OpenImage dataset数据集上训练，不对其做修改。

步骤2.1.1)，为了获取丰富的图像特征，将步骤一预处理过后的完整图像I_full上采样得到I'_full，将采样后的图像I'_full输入前置模型P中得到N个多尺度语义特征图：

其中，U表示使用pixelshuffle算法进行上采样操作，和/>表示尺度为n时的语义信息和破损图像的编码特征。

步骤2.1.3)，使用以L1重构损失约束破损区域的语义先验学习器，获取破损图像的多尺度语义先验信息：

其中，1×1卷积层使其与前置模型输出通道保持一致，⊙表示哈达玛积，α是对破损区域的附加约束，和/>分别是尺度为n时对应的掩膜和完整图像语义特征图，它们空间大小相同；最后，使用残差模块将多尺度语义先验F_prior映射为多尺度语义结构综上，可获取破损区域的有用信息，滤除/>与修复区域无关的成分。

2.2)阶段2：聚合多尺度语义生成器

F_text＝E_text(I_broken,I_mask)

步骤2.2.2)，将步骤2.1.3)中获取的多尺度语义结构作为语义指导，逐步细化步骤2.2.1)中的局部纹理特征F_text。但是/>注重全局语义信息，而F_text则更关注纹理和局部结构，所以不能直接融合这两个图像特性。为了自适应的将语义结构先验合并到纹理特征编码中，借用空间自适应归一化模块SPADE的思想，设计了聚合多尺度语义生成器模块(ASG)。对于不同尺度的语义结构，应用不同数量的SPADE残差模块。每个SPADE残差模块后连接一个上采样层：

2.3)阶段3：掩膜引导判别器

相比于全局判别器直接将修复图像判定为假，而忽略了破损区域外的部分是来自真实图像，我们使用掩膜引导的判别器区分修复图像中的合成区域和非合成区域，生成更加逼真的纹理。

计算损失函数：

3.1)重建损失公式如下：

3.2)感知损失公式如下：

L_fm＝∑_iω_i|φ_i(I_out)-φ_i(I_full)||

3.3)对抗损失公式如下：

3.4)语义先验损失公式如下：

其中，和/>均为语义先验学习器得到的特征图，/>为尺度为n的掩膜图像，α是对破损区域的附加约束。

选取使用语义指导的SPL方法和SPN方法进行对比实验，如图3、图4和图5所示，分别为这三种方法在Paris StreetView、CelebA和Places365-Challenge数据集上的修复结果。其中，(a)为破损图像，(b)为SPL复原图像，(c)为SPN复原图像，(d)为本发明复原图像，(e)为真实图像。从对比图可以看出，本发明对于图像修复的质量比现有技术的高。

如图6所示，本实施例公开了一种基于多尺度语义驱动的图像修复系统，基于上述方法实施例，其包括如下模块：

本实施例其他内容可参考上述方法实施例。

综上，本发明公开了一种基于多尺度语义驱动的图像修复方法及系统，本发明利用金字塔模型和多标签分类模型构建语义先验学习器，获取图像多尺度全局语义信息；使用残差块将多尺度全局语义信息转换为多尺度语义结构；基于SPADE放射变换机制构建语义聚合结构，自适应地集成学习到的多尺度语义结构特征，细化了低级纹理特征，提高了图像修复的质量。本发明在复杂背景下，可以结合低级纹理特征和高级语义特征生成合理且清晰的视觉细节。

Claims

1.一种基于多尺度语义驱动的图像修复方法，其特征是，步骤如下：

步骤一，获取图像数据集以及不规则掩膜数据集，并对数据集中的图像进行预处理；

步骤二，将破损图像与对应的掩膜图像输入图像修复网络中进行修复。

2.如权利要求1所述一种基于多尺度语义驱动的图像修复方法，其特征是，步骤一具体如下：

步骤1.1)，获取图像数据集以及不规则掩膜数据集，并对数据集中的图像进行中心裁剪，再使用双线性插值法将完整图像和掩膜图像调整为同样大小；其中，图像数据集和不规则掩膜数据集均包括训练集和测试集；

步骤1.2)，将数据集中调整大小后的图像与掩膜图像进行结合，得到破损图像。

3.如权利要求2所述一种基于多尺度语义驱动的图像修复方法，其特征是，步骤1.1)中：

u＝(x-x₁)/(x₂-x₁)

v＝(y-y₁)/(y₂-y₁)

其中，P(x,y)表示P₁(x₁,y₁)和P₂(x₂,y₂)之间待插值的点，u和v的取值范围都在0和1之间；

f_x(x,y)＝(1-u)×f₁(x₁,y₁)+u×f₂(x₂,y₂)

f_y(x,y)＝(1-v)×f₁(x₁,y₁)+v×f₂(x₂,y₂)

步骤1.1.3)，利用水平和垂直方向的插值结果，进行加权平均得到最终的插值结果f(x,y)：

4.如权利要求2所述一种基于多尺度语义驱动的图像修复方法，其特征是，步骤1.2)中，所述的掩膜为二值图像，使用矩阵点乘，使掩膜图像黑色区域对应的完整图像位置像素保持不变，掩膜图像白色区域对应完整图像位置的像素置为0，从而得到破损图像。

5.如权利要求2-4任一项所述一种基于多尺度语义驱动的图像修复方法，其特征是，步骤二中，将步骤1.2)得到的破损图像与对应的掩膜图像一起输入到图像修复网络中，进行前向传递；主干网络包括3个部分，分别为语义先验学习器、聚合多尺度语义生成器以及掩膜引导判别器。

6.如权利要求5所述一种基于多尺度语义驱动的图像修复方法，其特征是，步骤二中，语义先验学习器具体如下：

其中，特征图是从破损图像可视像素中学习到的图像表示，空间大小与语义特征图保持一致；将分辨率最小的特征图/>送入多个残差块中获取最小尺度的语义信息接着采用串联的方式将前一阶段的语义信息上采样并与下一尺度特征图一起作为输入送入残差块，获取下一尺度的语义信息，即在金字塔的不同分辨率上获取不同尺度的语义信息：

步骤2.1.3)获取破损图像的多尺度语义先验信息：

其中，1×1卷积层使其与前置模型输出通道保持一致，⊙表示哈达玛积，α是对破损区域的附加约束，和/>分别是尺度为n时对应的掩膜和完整图像语义特征图；最后，使用残差模块将多尺度语义先验F_prior映射为多尺度语义结构/>为下一步细化局部纹理特征做准备。

7.如权利要求6所述一种基于多尺度语义驱动的图像修复方法，其特征是，聚合多尺度语义生成器具体如下：

F_text＝E_text(I_broken,I_mask)

步骤2.2.2)，将语义先验学习器中获取的多尺度语义结构作为语义指导，逐步细化语义先验学习器中的局部纹理特征F_text，对于不同尺度的语义结构，应用不同数量的空间自适应归一化模块SPADE模块，每个SPADE模块后连接一个上采样层：

其中，表示第n个尺度语义结构细化之后的纹理特征图，I_out表示生成器最终生成的修复图像；在SPADE残差快内部，纹理特征F_text先用非参数实例归一化IN，然后分别从不同尺度语义结构/>中学习两组不同的参数λⁿ和θⁿ，对纹理特征进行空间像素仿射变换：

8.如权利要求7所述一种基于多尺度语义驱动的图像修复方法，其特征是，掩膜引导判别器具体如下：判别器由4个卷积层构成，每一层都将图像特征层缩小至原来的一半；将完整的图像I_full和修复后的图像I_out共同作为判别器的输入，最终输出一个M×M的预测图，预测图的每一个像素表示输入图像中M×M补丁的真假。

9.如权利要求8所述一种基于多尺度语义驱动的图像修复方法，其特征是，生成器的损失函数和判别器的损失函数分别如下：

其中，L_G和L_D分别为生成器和判别器的损失函数，ω₁、ω₂、ω₃和ω₄分别代表重建损失、感知损失、对抗损失和语义先验损失的权重；L_re表示重建损失，L_fm表示感知损失，L_prior表示语义先验损失，表示生成器的对抗损失，/>表示判别器的对抗损失；

重建损失公式如下：

其中，I_full表示未破损的完整图像，I_out表示修复后的图像，I_mask表示掩膜图像，表示对破损区域的额外约束；

感知损失公式如下：

L_fm＝∑_iω_i||φ_i(I_out)-φ_i(I_full)||

其中，ω_i表示VGG16网络的第i层网络结构的权重参数，φ_i是VGG16网络的第i层特征图；

对抗损失公式如下：

其中，判别器D的输出代表生成图像I_out和完整图像I_full的相似性，被用来驱动生成器G生成更逼真的图像；

语义先验损失公式如下：

10.一种基于多尺度语义驱动的图像修复系统，基于权利要求1-9任一项所述的方法，其特征是，包括如下模块：