CN117557474A - 基于多尺度语义驱动的图像修复方法及系统 - Google Patents
基于多尺度语义驱动的图像修复方法及系统 Download PDFInfo
- Publication number
- CN117557474A CN117557474A CN202311582232.8A CN202311582232A CN117557474A CN 117557474 A CN117557474 A CN 117557474A CN 202311582232 A CN202311582232 A CN 202311582232A CN 117557474 A CN117557474 A CN 117557474A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- scale
- mask
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000001788 irregular Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 230000008439 repair process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 11
- 238000007670 refining Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 230000008447 perception Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 241000669244 Unaspis euonymi Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种基于多尺度语义驱动的图像修复方法及系统,方法步骤如下:步骤一,获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行预处理;步骤二,将破损图像与对应的掩膜图像输入图像修复网络中进行修复。本发明细化了低级纹理特征,提高了图像修复的质量。本发明在复杂背景下,可以结合低级纹理特征和高级语义特征生成合理且清晰的视觉细节。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于多尺度语义驱动的图像修复方法及系统。
背景技术
图像修复是一种基于图像完好的区域像素,填充图像的破损区域像素,从而实现重建图像的技术,该技术在日常生活的各种领域中都有着重要应用,例如老照片和商业广告图像修复、医学成像、艺术保护以及图像编辑软件等。近些年来,图像修复技术取得了很大的进展,当背景简单或者缺陷小而规则时,可以生成逼真的视觉细节,但是面对复杂场景时,仍然会由于语义模糊而导致纹理模糊以及结构扭曲。
一个好的图像修复方法应该是结合低级纹理特征和高级语义特征生成合理且清晰的视觉细节。在复杂场景下,图像中存在的完整像素较少,无法从遥远的背景推断出图像内容,在修复大型随机不规则复杂图像时,导致结果中的结构扭曲和伪影,降低了图像修复的清晰度和逼真度。基于此,本发明提出了一种基于多尺度语义驱动的图像修复方法及系统。
发明内容
针对上述现状,本发明提出了一种基于多尺度语义驱动的图像修复方法及系统,解决了复杂场景下由于语义模糊而导致图像纹理模糊和结构扭曲的问题,保持了复原图像整体内容的一致性,使得修复结果结构合理、纹理清晰,且修复区域的清晰度与已知区域基本相同。
本发明采取如下技术方案:
一种基于多尺度语义驱动的图像修复方法,具体步骤如下:
步骤一,数据获取及预处理:获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行预处理;
步骤二,语义驱动生成网络及计算损失函数:将破损图像与对应的掩膜图像输入图像修复网络中进行修复。
优选的,步骤一具体如下:
步骤1.1),获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行中心裁剪,再使用双线性插值法将完整图像和掩膜图像调整为同样大小。其中,图像数据集和不规则掩膜数据集均分别包括训练集和测试集。
步骤1.2),将数据集中调整大小后的图像与掩膜图像进行结合,得到破损图像。所述掩膜为二值图像,使用矩阵点乘,使掩膜图像黑色区域对应的完整图像位置像素保持不变,掩膜图像白色区域对应完整图像位置的像素置为0,从而得到破损图像。
优选的,步骤1.1)中:
步骤1.1.1),计算待插值点P(x,y)的横向距离和纵向距离与已知像素点P1(x1,y1)、P2(x2,y2)的距离比例u、v:
u=(x-x1)/(x2-x1)
v=(y-y1)/(y2-y1)
其中,P(x,y)表示P1(x1,y1)和P2(x2,y2)之间待插值的点,u和v的取值范围都在0和1之间。
步骤1.1.2),分别在水平和垂直方向上进行线性插值;根据已知像素点P1和P2的像素值f1(x1,y1)和f2(x2,y2),计算在横坐标x处的插值结果fx(x,y)和纵坐标y处的插值结果fy(x,y):
fx(x,y)=(1-u)×f1(x1,y1)+u×f2(x2,y2)
fy(x,y)=(1-v)×f1(x1,y1)+v×f2(x2,y2)
步骤1.1.3),利用上述水平和垂直方向的插值结果,进行加权平均得到最终的插值结果f(x,y):
f(x,y)=(1-u)×(1-v)×f1(x1,y1)+u×(1-v)×f2(x2,y2)+(1-u)×v×f1(x1,y1)+u×v×f2(x2,y2)
优选的,步骤二中,将上述步骤得到的破损图像与对应的掩膜图像一起输入到图像修复网络中,进行前向传递;主干网络主要包括3个部分,分别为语义先验学习器、聚合多尺度语义生成器以及掩膜引导判别器,具体如下:
2.1)阶段1:语义先验学习器
语义先验学习器左侧采用一个U-Net结构的金字塔模型,实现采样后破损图像多尺度低级特征提取,右侧借助一个前置多标签分类模型P来提炼采样后完整图像的多尺度语义特征,来作为语义学习的监督。这个前置模型使用非对称损失(ASL)在OpenImagedataset数据集上训练,不对其做修改。使用L1重构损失多尺度低级特征和多尺度语义特征映射为多尺度语义先验,再通过残差块处理,获取多尺度语义结构金字塔,实现语义和结构的交互。语义先验学习器具体如下:
步骤2.1.1),将步骤一预处理过后的完整图像Ifull上采样得到I'full,将采样后的图像I'full输入前置模型P中得到N个多尺度语义特征图:
其中,语义特征图的大小为/>n表示当前尺度数,h和w分别为完整图像Ifull的高和宽;
步骤2.1.2),将步骤一中得到的破损图像Ibroken上采样得到I′broken,与之对应的掩膜图像Imask上采样得到I'mask;上采样之后的破损图像与掩膜图像一起输入语义先验学习器Es,包含N个下采样层和一个残差块:
其中,特征图是从破损图像可视像素中学习到的图像表示,空间大小与语义特征图/>保持一致;将分辨率最小的特征图/>送入多个残差块中获取最小尺度(即尺度为N)的语义信息/>接着采用串联的方式将前一阶段的语义信息上采样并与下一尺度特征图一起作为输入送入残差块,获取下一尺度的语义信息,即在金字塔的不同分辨率上获取不同尺度的语义信息:
其中,U表示使用pixelshuffle算法进行上采样操作,和/>表示尺度为n时的语义信息和破损图像的编码特征;
步骤2.1.3)获取破损图像的多尺度语义先验信息:
其中,1×1卷积层使其与前置模型输出通道保持一致,⊙表示哈达玛积,α是对破损区域的附加约束,和/>分别是尺度为n时对应的掩膜和完整图像语义特征图,它们空间大小相同;最后,使用残差模块将多尺度语义先验Fprior映射为多尺度语义结构为下一步细化局部纹理特征做准备。
2.2)阶段2:聚合多尺度语义生成器
采用由3个卷积层构建的纹理特征编码器对采样前的破损图像编码,获取破损图像的局部纹理特征。使用阶段1获取的多尺度语义结构金字塔作为语义指导,逐步细化局部纹理特征。由于多尺度语义结构金字塔注重全局语义信息,而局部纹理特征更关注纹理和局部结构,所以不能直接融合这两个图像特性。
为了自适应的将语义结构合并到纹理特征编码中,借用空间自适应归一化模块(SPADE)的思想,设计了聚合多尺度语义生成器模块(ASG)。其中,纹理特征先用非参数实例归一化(IN),然后,分别从不同尺度语义结构中学习两组不同的参数λn和θn,对纹理特征进行空间像素仿射变换,实现全局上下文融合。聚合多尺度语义生成器具体如下:
步骤2.2.1),将步骤一中预处理后的破损图像Ibroken以及与之相对应的掩膜图像Imask共同输入到由3个卷积层构建的纹理特征编码器Etext中,提取破损图像的局部纹理特征Ftext:
Ftext=Etext(Ibroken,Imask)
步骤2.2.2),将语义先验学习器中获取的多尺度语义结构作为语义指导,逐步细化语义先验学习器中的局部纹理特征Ftext,对于不同尺度的语义结构,应用不同数量的SPADE残差模块。每个SPADE残差模块后连接一个上采样层:
其中,表示第n个尺度语义结构细化之后的纹理特征图,Iout表示生成器最终生成的修复图像。在SPADE残差快内部,纹理特征Ftext先用非参数实例归一化(IN),然后分别从不同尺度语义结构/>中学习两组不同的参数λn和θn,对纹理特征进行空间像素仿射变换:
其中,λn和θn分别表示从不同尺度语义结构中学习到的归一化系数和偏置系数,表示经过尺度为n的语义结构/>细化后的纹理特征。
2.3)阶段3:掩膜引导判别器
相比于全局判别器直接将修复图像判定为假,而忽略了破损区域外的部分是来自真实图像,本发明使用掩膜引导的判别器区分修复图像中的合成区域和非合成区域,生成更加逼真的纹理。
判别器由4个卷积层构成,每一层都将图像特征层缩小指原来的一半。将完整的图像Ifull和修复后的图像Iout共同作为判别器的输入,最终输出一个M×M的预测图,预测图的每一个像素表示输入图像中M×M的补丁的真假。
优选的,计算损失函数:
生成器损失函数由重建损失、感知损失、对抗损失和语义先验损失四部分组成;判别器的损失函数为对抗损失,公式分别如下:
其中,LG和LD分别为生成器和判别器的损失函数,ω1、ω2、ω3和ω4分别代表重建损失、感知损失、对抗损失和语义先验损失的权重;Lre表示重建损失,Lfm表示感知损失,Lprior表示语义先验损失,表示生成器的对抗损失,/>表示判别器的对抗损失。
3.1)重建损失公式如下:
其中,Ifull表示未破损的完整图像,Iout表示修复后的图像,Imask表示掩膜图像,表示对破损区域的额外约束。
3.2)感知损失公式如下:
Lfm=∑iωi|φi(Iout)-φi(Ifull)||
感知损失以VGG16网络作为基础计算的。其中,ωi表示VGG16网络的第i层网络结构的权重参数,φi是VGG16网络的第i层特征图。
3.3)对抗损失公式如下:
其中,判别器D的输出代表生成图像Iout和完整图像Ifull的相似性,被用来驱动生成器G生成更逼真的图像。
3.4)语义先验损失公式如下:
其中,和/>分别为前述步骤2.1.1)和2.1.2)中得到的特征图,/>为尺度为n的掩膜图像,α是对破损区域的附加约束。
本发明还公开了一种基于多尺度语义驱动的图像修复系统,基于上述方法,其包括如下模块:
数据获取及预处理模块:获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行预处理;
修复模块:将破损图像与对应的掩膜图像输入图像修复网络中进行修复。
与现有技术相比,本发明的有益效果在于:
本发明设计了一种基于多尺度语义驱动的图像修复方法及系统,针对目前复杂背景下,修复大型随机不规则图像存在的问题,首先借用金字塔模型和多标签分类模型构建语义先验学习器,获取多尺度语义先验信息;再将语义先验信息通过残差块进行处理,得到多尺度语义结构金字塔。
本发明提出一个空间自适应归一化语义聚合结构,使用多尺度语义结构金字塔自适应的细化图像纹理特征,实现破损图像全局上下文的语义理解,从而在破损区域生成合理的结构和清晰的纹理细节。
附图说明
图1为本发明优选实施例一种基于多尺度语义驱动的图像修复方法流程图。
图2为本发明优选实施例图像修复的网络结构图;其中,(a)为语义先验学习器,(b)为聚合多尺度语义生成器,(c)为掩膜引导判别器。
图3为本发明在Paris StreetView数据集的修复结果;其中,(a)为破损图像,(b)为SPL,(c)为SPN,(d)为本发明,(e)为真实图像。
图4为本发明在CelebA数据集的修复结果;其中,(a)为破损图像,(b)为SPL,(c)为SPN,(e)为真实图像。
图5为本发明在Places365-Challenge数据集的修复结果;其中,(a)为破损图像,(b)为SPL,(c)为SPN,(d)为本发明,(e)为真实图像。
图6为本发明优选实施例一种基于多尺度语义驱动的图像修复系统框图。
具体实施方式
为了更加清楚的展示本发明的目的、技术优势,结合附图及实施例,对本发明做出进一步解释说明。
本优选实施例在Paris StreetView、CelebA和Places365-Challenge数据集上进行,利用12000张不规则掩膜数据集构建破损图像。其中,Paris StreetView数据集包含14900个训练样本和100个测试样本;CelebA包含20万张图片,其中,训练集有162700张图像,测试集的有37300张图像,实验随机选取测试集的12000张作为测试样本;Places365-Challenge数据集包含了365个场景中的200万张图像,实验选取5个完整类别,获得20万张图像,其中每个类别中随机抽取4000张图像作为测试集,剩下的18万张图像作为训练集。本实施例具体步骤如下:
步骤一,数据获取以及预处理;
步骤1.1),获取图像数据集以及不规则掩膜数据集,对数据集中的图像进行中心裁剪,再使用双线性插值法将图像大小调整为同样大小。图像数据集和不规则掩膜数据集均包括训练集和测试集。双线性插值具体流程如下:
步骤1.1.1),计算待插值点P(x,y)的横向距离和纵向距离与已知像素点P1(x1,y1)、P2(x2,y2)的距离比例u、v:
u=(x-x1)/(x2-x1)
v=(y-y1)/(y2-y1)
其中,P(x,y)表示P1(x1,y1)和P2(x2,y2)之间待插值的点,u和v的取值范围都在0和1之间。
步骤1.1.2),分别在水平和垂直方向上进行线性插值;根据已知像素点P1和P2的像素值f1(x1,y1)和f2(x2,y2),计算在横坐标x处的插值结果fx(x,y)和纵坐标y处的插值结果fy(x,y):
fx(x,y)=(1-u)×f1(x1,y1)+u×f2(x2,y2)
fy(x,y)=(1-v)×f1(x1,y1)+v×f2(x2,y2)
1.1.3)利用上述水平和垂直方向的插值结果,进行加权平均得到最终的插值结果f(x,y):
f(x,y)=(1-u)×(1-v)×f1(x1,y1)+u×(1-v)×f2(x2,y2)+(1-u)×v×f1(x1,y1)+u×v×f2(x2,y2)
步骤1.2),将数据集中调整大小后的图像与掩膜图像进行结合,得到破损图像。即掩膜图像黑色区域对应的图像位置像素保持不变,掩膜图像白色区域对应位置的像素置为0,从而得到破损图像。
步骤二,语义驱动生成网络及计算损失函数;
将上述过程得到的破损图像与对应的掩膜图像一起输入到图像修复网络中,进行前向传递;如图2所示,主干网络主要包括3个部分,分别为语义先验学习器、聚合语义生成器以及掩膜引导判别器,具体如下:
2.1)阶段1:语义先验学习器
语义先验学习器是借助一个前置多标签分类模型P作为监督来获取损坏图像的全局语义特征。这个前置模型使用非对称损失(ASL)在OpenImage dataset数据集上训练,不对其做修改。
步骤2.1.1),为了获取丰富的图像特征,将步骤一预处理过后的完整图像Ifull上采样得到I'full,将采样后的图像I'full输入前置模型P中得到N个多尺度语义特征图:
其中,语义特征图的大小为/>n表示当前尺度数,h和w分别为完整图像Ifull的高和宽;
步骤2.1.2),将步骤一中得到的破损图像Ibroken上采样得到I′broken,与之对应的掩膜图像Imask上采样得到I'mask;上采样之后的破损图像与掩膜图像一起输入语义先验学习器Es,包含N个下采样层和一个残差块:
其中,特征图是从破损图像可视像素中学习到的图像表示,空间大小与语义特征图/>保持一致;将分辨率最小的特征图/>送入多个残差块中获取最小尺度(即尺度为N)的语义信息/>接着采用串联的方式将前一阶段的语义信息上采样并与下一尺度特征图一起作为输入送入残差块,获取下一尺度的语义信息,即在金字塔的不同分辨率上获取不同尺度的语义信息:
其中,U表示使用pixelshuffle算法进行上采样操作,和/>表示尺度为n时的语义信息和破损图像的编码特征。
步骤2.1.3),使用以L1重构损失约束破损区域的语义先验学习器,获取破损图像的多尺度语义先验信息:
其中,1×1卷积层使其与前置模型输出通道保持一致,⊙表示哈达玛积,α是对破损区域的附加约束,和/>分别是尺度为n时对应的掩膜和完整图像语义特征图,它们空间大小相同;最后,使用残差模块将多尺度语义先验Fprior映射为多尺度语义结构综上,可获取破损区域的有用信息,滤除/>与修复区域无关的成分。
2.2)阶段2:聚合多尺度语义生成器
步骤2.2.1),将步骤一中预处理后的破损图像Ibroken以及与之相对应的掩膜图像Imask共同输入到由3个卷积层构建的纹理特征编码器Etext中,提取破损图像的局部纹理特征Ftext:
Ftext=Etext(Ibroken,Imask)
步骤2.2.2),将步骤2.1.3)中获取的多尺度语义结构作为语义指导,逐步细化步骤2.2.1)中的局部纹理特征Ftext。但是/>注重全局语义信息,而Ftext则更关注纹理和局部结构,所以不能直接融合这两个图像特性。为了自适应的将语义结构先验合并到纹理特征编码中,借用空间自适应归一化模块SPADE的思想,设计了聚合多尺度语义生成器模块(ASG)。对于不同尺度的语义结构,应用不同数量的SPADE残差模块。每个SPADE残差模块后连接一个上采样层:
其中,表示第n个尺度语义结构细化之后的纹理特征图,Iout表示生成器最终生成的修复图像。在SPADE残差快内部,纹理特征Ftext先用非参数实例归一化(IN),然后分别从不同尺度语义结构/>中学习两组不同的参数λn和θn,对纹理特征进行空间像素仿射变换:
其中,λn和θn分别表示从不同尺度语义结构中学习到的归一化系数和偏置系数,表示经过尺度为n的语义结构/>细化后的纹理特征。
2.3)阶段3:掩膜引导判别器
相比于全局判别器直接将修复图像判定为假,而忽略了破损区域外的部分是来自真实图像,我们使用掩膜引导的判别器区分修复图像中的合成区域和非合成区域,生成更加逼真的纹理。
判别器由4个卷积层构成,每一层都将图像特征层缩小指原来的一半。将完整的图像Ifull和修复后的图像Iout共同作为判别器的输入,最终输出一个M×M的预测图,预测图的每一个像素表示输入图像中M×M的补丁的真假。
计算损失函数:
生成器损失函数由重建损失、感知损失、对抗损失和语义先验损失四部分组成;判别器的损失函数为对抗损失,公式分别如下:
其中,LG和LD分别为生成器和判别器的损失函数,ω1、ω2、ω3和ω4分别代表重建损失、感知损失、对抗损失和语义先验损失的权重;Lre表示重建损失,Lfm表示感知损失,Lprior表示语义先验损失,表示生成器的对抗损失,/>表示判别器的对抗损失。
3.1)重建损失公式如下:
其中,Ifull表示未破损的完整图像,Iout表示修复后的图像,Imask表示掩膜图像,表示对破损区域的额外约束。
3.2)感知损失公式如下:
Lfm=∑iωi|φi(Iout)-φi(Ifull)||
感知损失以VGG16网络作为基础计算的。其中,ωi表示VGG16网络的第i层网络结构的权重参数,φi是VGG16网络的第i层特征图。
3.3)对抗损失公式如下:
其中,判别器D的输出代表生成图像Iout和完整图像Ifull的相似性,被用来驱动生成器G生成更逼真的图像。
3.4)语义先验损失公式如下:
其中,和/>均为语义先验学习器得到的特征图,/>为尺度为n的掩膜图像,α是对破损区域的附加约束。
选取使用语义指导的SPL方法和SPN方法进行对比实验,如图3、图4和图5所示,分别为这三种方法在Paris StreetView、CelebA和Places365-Challenge数据集上的修复结果。其中,(a)为破损图像,(b)为SPL复原图像,(c)为SPN复原图像,(d)为本发明复原图像,(e)为真实图像。从对比图可以看出,本发明对于图像修复的质量比现有技术的高。
如图6所示,本实施例公开了一种基于多尺度语义驱动的图像修复系统,基于上述方法实施例,其包括如下模块:
数据获取及预处理模块:获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行预处理;
修复模块:将破损图像与对应的掩膜图像输入图像修复网络中进行修复。
本实施例其他内容可参考上述方法实施例。
综上,本发明公开了一种基于多尺度语义驱动的图像修复方法及系统,本发明利用金字塔模型和多标签分类模型构建语义先验学习器,获取图像多尺度全局语义信息;使用残差块将多尺度全局语义信息转换为多尺度语义结构;基于SPADE放射变换机制构建语义聚合结构,自适应地集成学习到的多尺度语义结构特征,细化了低级纹理特征,提高了图像修复的质量。本发明在复杂背景下,可以结合低级纹理特征和高级语义特征生成合理且清晰的视觉细节。
Claims (10)
1.一种基于多尺度语义驱动的图像修复方法,其特征是,步骤如下:
步骤一,获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行预处理;
步骤二,将破损图像与对应的掩膜图像输入图像修复网络中进行修复。
2.如权利要求1所述一种基于多尺度语义驱动的图像修复方法,其特征是,步骤一具体如下:
步骤1.1),获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行中心裁剪,再使用双线性插值法将完整图像和掩膜图像调整为同样大小;其中,图像数据集和不规则掩膜数据集均包括训练集和测试集;
步骤1.2),将数据集中调整大小后的图像与掩膜图像进行结合,得到破损图像。
3.如权利要求2所述一种基于多尺度语义驱动的图像修复方法,其特征是,步骤1.1)中:
步骤1.1.1),计算待插值点P(x,y)的横向距离和纵向距离与已知像素点P1(x1,y1)、P2(x2,y2)的距离比例u、v:
u=(x-x1)/(x2-x1)
v=(y-y1)/(y2-y1)
其中,P(x,y)表示P1(x1,y1)和P2(x2,y2)之间待插值的点,u和v的取值范围都在0和1之间;
步骤1.1.2),分别在水平和垂直方向上进行线性插值;根据已知像素点P1和P2的像素值f1(x1,y1)和f2(x2,y2),计算在横坐标x处的插值结果fx(x,y)和纵坐标y处的插值结果fy(x,y):
fx(x,y)=(1-u)×f1(x1,y1)+u×f2(x2,y2)
fy(x,y)=(1-v)×f1(x1,y1)+v×f2(x2,y2)
步骤1.1.3),利用水平和垂直方向的插值结果,进行加权平均得到最终的插值结果f(x,y):
4.如权利要求2所述一种基于多尺度语义驱动的图像修复方法,其特征是,步骤1.2)中,所述的掩膜为二值图像,使用矩阵点乘,使掩膜图像黑色区域对应的完整图像位置像素保持不变,掩膜图像白色区域对应完整图像位置的像素置为0,从而得到破损图像。
5.如权利要求2-4任一项所述一种基于多尺度语义驱动的图像修复方法,其特征是,步骤二中,将步骤1.2)得到的破损图像与对应的掩膜图像一起输入到图像修复网络中,进行前向传递;主干网络包括3个部分,分别为语义先验学习器、聚合多尺度语义生成器以及掩膜引导判别器。
6.如权利要求5所述一种基于多尺度语义驱动的图像修复方法,其特征是,步骤二中,语义先验学习器具体如下:
步骤2.1.1),将步骤一预处理过后的完整图像Ifull上采样得到I'full,将采样后的图像I'full输入前置模型P中得到N个多尺度语义特征图:
其中,语义特征图的大小为/>n表示当前尺度数,h和w分别为完整图像Ifull的高和宽;
步骤2.1.2),将步骤一中得到的破损图像Ibroken上采样得到I′broken,与之对应的掩膜图像Imask上采样得到I'mask;上采样之后的破损图像与掩膜图像一起输入语义先验学习器Es,包含N个下采样层和一个残差块:
其中,特征图是从破损图像可视像素中学习到的图像表示,空间大小与语义特征图保持一致;将分辨率最小的特征图/>送入多个残差块中获取最小尺度的语义信息接着采用串联的方式将前一阶段的语义信息上采样并与下一尺度特征图一起作为输入送入残差块,获取下一尺度的语义信息,即在金字塔的不同分辨率上获取不同尺度的语义信息:
其中,U表示使用pixelshuffle算法进行上采样操作,和/>表示尺度为n时的语义信息和破损图像的编码特征;
步骤2.1.3)获取破损图像的多尺度语义先验信息:
其中,1×1卷积层使其与前置模型输出通道保持一致,⊙表示哈达玛积,α是对破损区域的附加约束,和/>分别是尺度为n时对应的掩膜和完整图像语义特征图;最后,使用残差模块将多尺度语义先验Fprior映射为多尺度语义结构/>为下一步细化局部纹理特征做准备。
7.如权利要求6所述一种基于多尺度语义驱动的图像修复方法,其特征是,聚合多尺度语义生成器具体如下:
步骤2.2.1),将步骤一中预处理后的破损图像Ibroken以及与之相对应的掩膜图像Imask共同输入到由3个卷积层构建的纹理特征编码器Etext中,提取破损图像的局部纹理特征Ftext:
Ftext=Etext(Ibroken,Imask)
步骤2.2.2),将语义先验学习器中获取的多尺度语义结构作为语义指导,逐步细化语义先验学习器中的局部纹理特征Ftext,对于不同尺度的语义结构,应用不同数量的空间自适应归一化模块SPADE模块,每个SPADE模块后连接一个上采样层:
其中,表示第n个尺度语义结构细化之后的纹理特征图,Iout表示生成器最终生成的修复图像;在SPADE残差快内部,纹理特征Ftext先用非参数实例归一化IN,然后分别从不同尺度语义结构/>中学习两组不同的参数λn和θn,对纹理特征进行空间像素仿射变换:
其中,λn和θn分别表示从不同尺度语义结构中学习到的归一化系数和偏置系数,表示经过尺度为n的语义结构/>细化后的纹理特征。
8.如权利要求7所述一种基于多尺度语义驱动的图像修复方法,其特征是,掩膜引导判别器具体如下:判别器由4个卷积层构成,每一层都将图像特征层缩小至原来的一半;将完整的图像Ifull和修复后的图像Iout共同作为判别器的输入,最终输出一个M×M的预测图,预测图的每一个像素表示输入图像中M×M补丁的真假。
9.如权利要求8所述一种基于多尺度语义驱动的图像修复方法,其特征是,生成器的损失函数和判别器的损失函数分别如下:
其中,LG和LD分别为生成器和判别器的损失函数,ω1、ω2、ω3和ω4分别代表重建损失、感知损失、对抗损失和语义先验损失的权重;Lre表示重建损失,Lfm表示感知损失,Lprior表示语义先验损失,表示生成器的对抗损失,/>表示判别器的对抗损失;
重建损失公式如下:
其中,Ifull表示未破损的完整图像,Iout表示修复后的图像,Imask表示掩膜图像,表示对破损区域的额外约束;
感知损失公式如下:
Lfm=∑iωi||φi(Iout)-φi(Ifull)||
其中,ωi表示VGG16网络的第i层网络结构的权重参数,φi是VGG16网络的第i层特征图;
对抗损失公式如下:
其中,判别器D的输出代表生成图像Iout和完整图像Ifull的相似性,被用来驱动生成器G生成更逼真的图像;
语义先验损失公式如下:
其中,和/>均为语义先验学习器得到的特征图,/>为尺度为n的掩膜图像,α是对破损区域的附加约束。
10.一种基于多尺度语义驱动的图像修复系统,基于权利要求1-9任一项所述的方法,其特征是,包括如下模块:
数据获取及预处理模块:获取图像数据集以及不规则掩膜数据集,并对数据集中的图像进行预处理;
修复模块:将破损图像与对应的掩膜图像输入图像修复网络中进行修复。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311582232.8A CN117557474A (zh) | 2023-11-24 | 2023-11-24 | 基于多尺度语义驱动的图像修复方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311582232.8A CN117557474A (zh) | 2023-11-24 | 2023-11-24 | 基于多尺度语义驱动的图像修复方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117557474A true CN117557474A (zh) | 2024-02-13 |
Family
ID=89821565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311582232.8A Pending CN117557474A (zh) | 2023-11-24 | 2023-11-24 | 基于多尺度语义驱动的图像修复方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557474A (zh) |
-
2023
- 2023-11-24 CN CN202311582232.8A patent/CN117557474A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292264B (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
CN112734646B (zh) | 一种基于特征通道划分的图像超分辨率重建方法 | |
CN113191953B (zh) | 一种基于Transformer的人脸图像超分辨的方法 | |
CN112116605A (zh) | 一种基于集成深度卷积神经网络的胰腺ct图像分割方法 | |
CN114092330A (zh) | 一种轻量化多尺度的红外图像超分辨率重建方法 | |
CN112507617B (zh) | 一种SRFlow超分辨率模型的训练方法及人脸识别方法 | |
KR102289045B1 (ko) | 멀티 스케일 객체 이미지 복원 방법 및 장치 | |
US11727628B2 (en) | Neural opacity point cloud | |
CN111696021A (zh) | 一种基于显著性检测的图像自适应隐写分析系统及方法 | |
CN115115514A (zh) | 基于高频信息特征融合的图像超分辨率重建方法 | |
CN116152173A (zh) | 一种图像篡改检测定位方法及装置 | |
Liu et al. | Facial image inpainting using multi-level generative network | |
CN116452469B (zh) | 一种基于深度学习的图像去雾处理方法及装置 | |
CN117151990B (zh) | 一种基于自注意力编码解码的图像去雾方法 | |
CN113379606A (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN111986079A (zh) | 基于生成对抗网络路面裂缝图像超分辨率重建方法及装置 | |
CN116703725A (zh) | 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法 | |
CN117557474A (zh) | 基于多尺度语义驱动的图像修复方法及系统 | |
CN116258627A (zh) | 一种极端退化人脸图像超分辨率恢复系统和方法 | |
CN115205527A (zh) | 一种基于域适应和超分辨率的遥感图像双向语义分割方法 | |
CN114897677A (zh) | 一种基于约束重构的无监督遥感图像超分辨率重建方法 | |
CN112991174A (zh) | 一种提高单帧红外图像分辨率的方法与系统 | |
Li | Image super-resolution algorithm based on RRDB model | |
CN113450366B (zh) | 基于AdaptGAN的低照度语义分割方法 | |
CN117037112A (zh) | 一种基于自注意力和退化学习的超分辨率远距离行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |