CN115760646B - 一种针对不规则孔洞的多模态人脸图像修复方法和系统 - Google Patents
一种针对不规则孔洞的多模态人脸图像修复方法和系统 Download PDFInfo
- Publication number
- CN115760646B CN115760646B CN202211581446.9A CN202211581446A CN115760646B CN 115760646 B CN115760646 B CN 115760646B CN 202211581446 A CN202211581446 A CN 202211581446A CN 115760646 B CN115760646 B CN 115760646B
- Authority
- CN
- China
- Prior art keywords
- fusion
- information
- characteristic information
- image
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000001788 irregular Effects 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 159
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 101100409194 Rattus norvegicus Ppargc1b gene Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
本发明公开了一种针对不规则孔洞的多模态人脸图像修复方法和系统,包括获取待修复人脸图像对应的隐藏表示信息,使用多个多尺度多级跳接融合模块依次接续对隐藏表示信息进行处理,获得图像特征信息,获取待修复人脸图像对应的文本特征信息,使用多模态特征融合模块根据文本特征信息对图像特征信息进行调整,获得多模态融合特征信息等步骤。本发明使用多模态特征融合模块来调整图像特征,获得多模态融合特征信息,使用多尺度多级跳接融合模块来提高对图像特征的利用率;受益于这两个模块,本发明能够在人脸图像的不规则受损区域内生成视觉上逼真、语义上合理的具有精细纹理的内容,减少伪影或者模糊等瑕疵。本发明广泛应用于图像处理技术领域。
Description
技术领域
本发明涉及图像处理技术领域,尤其是一种针对不规则孔洞的多模态人脸图像修复方法和系统。
背景技术
在人脸旧照片修复、人脸图像编辑、障碍物去除以及人脸口罩去除等任务中,经常面临着对存在孔洞的人脸图像进行修复,填补其中的孔洞以使人脸图像恢复完整的需求,这实际上是要根据人脸图像中能够确定的信息预测得到孔洞部分的信息。目前存在能够修复人脸图像中的孔洞的相关技术,但是这些相关技术一般只有在修复存在规则孔洞(例如矩形孔洞)的人脸图像时才能获得满意的效果,但是在修复存在不规则孔洞的人脸图像时,容易出现伪影或者模糊等瑕疵。
发明内容
针对目前修复人脸图像时,容易出现伪影或者模糊等不良效果等技术问题,本发明的目的在于提供一种针对不规则孔洞的多模态人脸图像修复方法和系统。
一方面,本发明实施例包括一种针对不规则孔洞的多模态人脸图像修复方法,包括:
获取待修复人脸图像;
获取所述待修复人脸图像对应的隐藏表示信息;
使用多个多尺度多级跳接融合模块,依次接续对所述隐藏表示信息进行处理,获得图像特征信息;
获取所述待修复人脸图像对应的文本特征信息;
使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息;
对所述多模态融合特征信息依次进行反卷积和卷积处理,获得重建人脸图像。
进一步地,所述获取所述待修复人脸图像对应的隐藏表示信息,包括:
对所述待修复人脸图像连续进行两次下采样,获得所述隐藏表示信息。
进一步地,所述使用多个多尺度多级跳接融合模块,依次接续对所述隐藏表示信息进行处理,获得图像特征信息,包括:
任一所述多尺度多级跳接融合模块对输入信息进行压缩,获得压缩特征信息,将所述压缩特征信息分别输入至多个多级跳接融合单元,获取各所述多级跳接融合单元分别输出的特征信息,其中不同的多级跳接融合单元输出的特征信息的尺度不同,对全部所述多级跳接融合单元各自输出的特征信息进行融合,获得该所述多尺度多级跳接融合模块的输出信息;
其中,第一个所述多尺度多级跳接融合模块的输入信息为所述隐藏表示信息,其他所述多尺度多级跳接融合模块的输入信息为上一个所述多尺度多级跳接融合模块的输出信息,最后一个所述多尺度多级跳接融合模块的输出信息为所述图像特征信息。
进一步地,所述将所述压缩特征信息分别输入至多个多级跳接融合单元,获取各所述多级跳接融合单元分别输出的特征信息,包括:
所述多级跳接融合单元将所述压缩特征信息分成通道数减半的第一组子特征和第二组子特征;
对所述第二组子特征进行卷积;
将所述第一组子特征在多个不同的深度级别上融入到所述第二组子特征的卷积过程中,获得该所述多级跳接融合单元输出的特征信息。
进一步地,所述获取所述待修复人脸图像对应的文本特征信息,包括:
使用描述模型从所述待修复人脸图像中预测出对应的文本描述信息;
使用文本编码器提取所述文本描述信息的句子特征信息;
对所述句子特征信息依次进行若干次反卷积和若干次卷积处理,获得所述文本特征信息。
进一步地,所述使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息,包括:
所述多模态特征融合模块根据所述文本特征信息,生成逐元素的缩放因子和逐通道的偏移因子;
根据所述缩放因子和所述偏移因子对所述图像特征信息进行调整,获得所述多模态融合特征信息。
进一步地,所述根据所述文本特征信息,生成逐元素的缩放因子和逐通道的偏移因子,包括:
通过公式
γ=σ(conv1×1(δ(conv1×1(FT))))
β=conv1×1(δ(conv1×1(g(FT))))
生成所述缩放因子和所述偏移因子;
其中,γ表示所述缩放因子,β表示所述偏移因子,FT表示所述文本特征信息,δ表示ReLU函数,σ表示sigmoid函数,g表示全局平均池化,conv表示卷积运算。
进一步地,所述根据所述缩放因子和所述偏移因子对所述图像特征信息进行调整,获得所述多模态融合特征信息,包括:
通过公式
对所述图像特征信息进行调整;
其中,表示所述图像特征信息,/>表示所述多模态融合特征信息。
进一步地,所述针对不规则孔洞的多模态人脸图像修复方法还包括:
根据原始真实图像和所述重建人脸图像,确定联合损失函数;
根据所述联合损失函数进行训练。
另一方面,本发明实施例还包括一种针对不规则孔洞的多模态人脸图像修复系统,所述针对不规则孔洞的多模态人脸图像修复系统包括:
第一模块,用于获取待修复人脸图像;
第二模块,用于获取所述待修复人脸图像对应的隐藏表示信息;
第三模块,用于使用多个多尺度多级跳接融合模块,依次接续对所述隐藏表示信息进行处理,获得图像特征信息;
第四模块,用于获取所述待修复人脸图像对应的文本特征信息;
第五模块,用于使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息;
第六模块,用于对所述多模态融合特征信息依次进行反卷积和卷积处理,获得重建人脸图像。
本发明的有益效果是:实施例中的针对不规则孔洞的多模态人脸图像修复方法,使用多模态特征融合模块MFFB来根据文本信息生成逐元素的缩放因子和逐通道的偏移因子来调整图像特征,文本特征信息通过多模态特征融合模块来辅助人脸图像的修复过程;通过使用多尺度多级跳接融合模块MMSFM来提取多尺度特征,在多个深度级别上将浅层特征与深层特征融合起来以实现信息补偿,同时提高对图像特征的利用率;受益于多模态特征融合模块MFFB和多尺度多级跳接融合模块MMSFM,实施例中的针对不规则孔洞的多模态人脸图像修复方法能够在人脸图像的不规则受损区域内生成视觉上逼真、语义上合理的具有精细纹理的内容,减少伪影或者模糊等瑕疵。
附图说明
图1为实施例中针对不规则孔洞的多模态人脸图像修复方法的流程图;
图2为实施例中针对不规则孔洞的多模态人脸图像修复方法的原理图;
图3为实施例中多尺度多级跳接融合模块的原理示意图;
图4为实施例中多模态特征融合模块的原理示意图。
具体实施方式
本实施例中,参照图1,针对不规则孔洞的多模态人脸图像修复方法包括以下步骤:
S1.获取待修复人脸图像;
S2.获取待修复人脸图像对应的隐藏表示信息;
S3.使用多个多尺度多级跳接融合模块,依次接续对隐藏表示信息进行处理,获得图像特征信息;
S4.获取待修复人脸图像对应的文本特征信息;
S5.使用多模态特征融合模块,根据文本特征信息对图像特征信息进行调整,获得多模态融合特征信息;
S6.对多模态融合特征信息依次进行反卷积和卷积处理,获得重建人脸图像。
本实施例中,可以使用图2所示的网络结构来执行步骤S1-S6。图2中的网络为生成对抗网络结构,其中生成对抗网络结构的鉴别器已在图2中标示出来,未标示出来的部分组成生成对抗网络结构的生成器。生成器用于生成缺失区域的内容,鉴别器用于判断输入的人脸图像是否真实。
图2中,各组数字的含义分别为卷积核大小、卷积步长、特征图填充宽度、通道数,例如被标注(4,2,1,128)的反卷积层,表明这个反卷积层的卷积核大小为4,卷积步长为2,特征图填充宽度为1,通道数为128。
步骤S1中,所获得的待修复人脸图像可以是存在不规则孔洞的人脸图像。
参照图2,生成器设计为带有文本辅助支路的编码器-解码器架构。更具体地说,给定一张损坏的待修复人脸图像,步骤S2中,生成器首先通过编码器对其进行两次下采样,所获得的结果作为隐藏表示信息。
为了更好地捕捉缺失区域和周围未损坏区域之间的变化和关系,步骤S3中,使用连续的8个多尺度多级跳接融合模块(Multi-scale Multi-level Skip Fusion Module,MMSFM)来进一步处理这些隐藏表示信息。
本实施例中,在执行步骤S3,也就是使用多个多尺度多级跳接融合模块,依次接续对隐藏表示信息进行处理,获得图像特征信息这一步骤时,任一多尺度多级跳接融合模块具体执行以下步骤:
S301.对输入信息进行压缩,获得压缩特征信息;
S302.将压缩特征信息分别输入至多个多级跳接融合单元,获取各多级跳接融合单元分别输出的特征信息;
S303.对全部多级跳接融合单元各自输出的特征信息进行融合,获得该多尺度多级跳接融合模块的输出信息。
本实施例中,参照图2,各个多尺度多级跳接融合模块MMSFM之间存在顺序关系,例如图2中的8个多尺度多级跳接融合模块中,位于最左侧的多尺度多级跳接融合模块为第一个多尺度多级跳接融合模块,位于最右侧的多尺度多级跳接融合模块为最后一个多尺度多级跳接融合模块。第一个多尺度多级跳接融合模块所要处理的输入信息为执行步骤S2获得的隐藏表示信息,除此之外每个多尺度多级跳接融合模块都对上一个多尺度多级跳接融合模块的处理结果进行进一步处理。最后一个多尺度多级跳接融合模块进行处理所得到的输出信息,作为执行步骤S3所得到的图像特征信息。
本实施例中,每个多尺度多级跳接融合模块MMSFM都执行步骤S301-S303,以其中一个多尺度多级跳接融合模块MMSFM执行步骤S301-S303为例进行说明。
本实施例中,为了充分利用图像特征以在不规则孔中生成视觉上合理的人脸内容,提出了一个多尺度多级跳接融合模块(MMSFM)。MMSFM使用多条支路来分别提取不同尺度的特征,并在多个深度级别上将浅层特征与深层特征融合起来以增强各支路的信息传递,同时提高对图像特征的利用率。MMSFM的最终输出是各条支路提取到的不同尺度的特征的融合结果。参照图3,一个多尺度多级跳接融合模块MMSFM中包括一个1×1压缩层Compression layer、多个多级跳接融合单元MSFM以及一个1×1融合层fusion layer。不同的多级跳接融合单元MMSFM输出的特征信息的尺度不同。
在一个多尺度多级跳接融合模块MMSFM中,执行步骤S301时,通过1×1压缩层Compression layer对输入信息进行压缩,获得压缩特征信息。1×1压缩层Compressionlayer可以压缩输入特征的通道数以减少参数量。
步骤S302中,将压缩特征信息分别输入至多个多级跳接融合单元MSFM,获取各多级跳接融合单元MSFM分别输出的特征信息。具体地,每个多级跳接融合单元MSFM首先将这些特征分成通道数减半的两组子特征,然后将第一组子特征在多个深度级别上融入到第二组子特征的卷积过程中,以增强信息的传输。通过通道切分和通道级联操作,多级跳接融合单元MSFM在没有大幅度增加参数量的情况下加深了卷积的深度,实现了更强的特征提取能力。
步骤S303中,使用1×1融合层fusion layer,通过通道级联操作将全部多级跳接融合单元MSFM各自输出的不同尺度的特征信息融合在一起,获得该多尺度多级跳接融合模块MMSFM的输出信息。
经过8个多尺度多级跳接融合模块MMSFM依次执行步骤S301-S303,获得最后一个多尺度多级跳接融合模块MMSFM输出的结果作为图像特征信息。
本实施例中,多尺度多级跳接融合模块MMSFM是可调控的。令R表示通道压缩比,B表示分支数。通过改变R和B的值,可以获得具有不同参数量和特征提取能力的MMSFM。本实施例中可以设置R=2,B=3。对于第i条支路,设置卷积核大小ki=2i+1,其中i∈[1,B]且i为正整数。
本实施例中,在执行步骤S4,也就是获取待修复人脸图像对应的文本特征信息这一步骤时,先通过经过预训练的描述模型(caption model)从待修复人脸图像中预测出对应的文本描述信息,接着通过预训练的文本编码器(RNN)提取该文本描述信息中的句子级别的特征,得到句子特征信息。参照图2,句子特征信息经过若干个卷积层和反卷积层处理,得到文本特征信息。文本特征信息可以通过多模态特征融合模块(Multimodal FeatureFusion Block,MFFB)在多个特征尺度上注入到解码过程中,以辅助人脸图像的修复。
本实施例中,所使用的RNN文本编码器是一个预训练的双向长短期记忆(LSTM),而描述模型(caption model)的网络结构则可以从Anderson,P等人的工作中获得,并在CelebA数据集上进行预训练。
为了解决缺乏有效的多特征融合技术的问题,本实施例中设计了一种多模态特征融合块MFFB,它可以有效地将文本信息融合到图像特征中。多模态特征融合块MFFB可以根据步骤S4获得的文本特征信息FT,生成逐元素的缩放因子γ和逐通道的偏移因子β,并使用它们来调整输入的图像特征信息
本实施例中,多模态特征融合块MFFB可以通过以下公式生成缩放因子γ和偏移因子β:
γ=σ(conv1×1(δ(conv1×1(FT))))
β=conv1×1(δ(conv1×1(g(FT))))
其中δ表示ReLU函数,σ表示sigmoid函数,g表示全局平均池化,conv1×1表示1×1的卷积操作。γ的维度与图像特征的维度相同,即对于输入的图像特征信息/>的每个空间位置的每个通道,MFFB生成一个对应的缩放因子。β是逐通道的,这意味着输入的图像特征信息/>的每个通道对应一个共同的偏移因子,也即同一个通道的所有空间位置共享一个偏移因子。用γ对/>进行逐元素的缩放操作、用β对/>进行逐通道的偏移操作,最终得到调整之后的输出的图像特征信息/>即:
逐元素的缩放操作实现了文本特征与图像特征之间的细粒度融合,而逐通道的偏移操作则从全局上融合了文本特征和图像特征。通过结合这两种操作,多模态特征融合块MFFB可以将文本信息有效地融合到图像特征中,最终获得多模态融合特征信息。
本实施例中,在执行步骤S5,也就是使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息这一步骤时,可以参照图2,执行以下步骤:
S501.获取句子特征信息经过全连接层、两个反卷积层和三个卷积层处理后输出的结果,将这个结果称为第一文本特征信息;
S502.第一文本特征信息再经过一个反卷积层处理得到第二文本特征信息;第一文本特征信息和第二文本特征信息存在尺度上的差别,本实施例中可以将第一文本特征信息和第二文本特征信息统称为文本特征信息;
S503.将最后一个多尺度多级跳接融合模块输出的图像特征信息,与第一文本特征信息输入至图2中左侧的多模态特征融合模块中进行融合处理,获得第一多模态融合特征信息;
S504.将第一多模态融合特征信息输入至一个反卷积层进行处理后,与第二文本特征信息输入至图2中右侧的多模态特征融合模块中进行融合处理,获得第二多模态融合特征信息;第一多模态融合特征信息和第二多模态融合特征信息存在尺度以及信息内容上的差别,本实施例中可以将第一多模态融合特征信息和第二多模态融合特征信息统称为多模态融合特征信息。
本实施例中,在执行步骤S6,也就是对多模态融合特征信息依次进行反卷积和卷积处理,获得重建人脸图像这一步骤时,可以参照图2,执行以下步骤:
将第二多模态融合特征信息依次输入至一个反卷积层和一个卷积层中进行处理,获得重建人脸图像。
本实施例中,参照图2,采用70×70PatchGAN架构作为鉴别器,它由五个卷积层组成。为了稳定训练过程,将频谱归一化(SN)引入到鉴别器的每个卷积层中。通过鉴别器可以判断生成器所生成的重建人脸图像中大小为70×70的重叠图像块是否是真实的,判断结果通过真(real)或假(fake)等值来表示,其中真(real)表示重叠图像块是真实的,假(fake)表示重叠图像块是生成的。
本实施例中,参照图2,根据重建人脸图像Iout和对应的原始真实图像Igt,可以计算得到损失、对抗性损失、感知损失以及风格损失等损失函数,根据上述损失函数可以确定联合损失函数,再进行训练,例如根据联合损失函数值调整生成器和/或鉴别器中的部分或全部网络参数。
损失,也称像素重建损失,是一种用于减少像素级别差异的损失。为了确保适当的缩放,本实施例中根据孔洞大小对/>损失进行归一化:
其中Nm为孔洞面积。
对抗性损失用于确保生成的人脸图像在视觉上自然合理,其公式如下:
感知损失是一种能理解图像语义信息的损失函数,它在深度特征层面对Igt和Iout进行约束,其定义为:
其中φi表示预训练网络VGG-19的relu1_1、relu2_1、relu3_1、relu4_1和relu5_1层的激活图。这些激活图也用于计算风格损失,以衡量激活图协方差之间的差异。
风格损失用于确保风格一致性,其定义如下:
其中Gi表示由φi构造的Gram矩阵。
本实施例中,联合损失函数为/>损失、对抗性损失、感知损失以及风格损失的线性组合,其计算公式为:
其中,λadv、λperc和λstyle分别为/>损失
对抗性损失
感知损失
以及风格损失
对应的权重系数。本实施例中,根据经验设置λadv=0.1,λperc=0.1,λstyle=250。
综上所述,本实施例中的针对不规则孔洞的多模态人脸图像修复方法(MuFIN),使用预测的文本描述来辅助人脸图像的修复过程。与现有的文本引导的图像修复方法不同,本实施例可以应用于不规则孔洞的人脸图像修复。首先,本实施例中的针对不规则孔洞的多模态人脸图像修复方法使用一个经过预训练的描述模型来预测文本描述;为了有效地将文本信息融合到图像特征中,本发明提出了一种多模态特征融合模块(MultimodalFeature Fusion Block,MFFB),它根据文本信息生成逐元素的缩放因子和逐通道的偏移因子来调整图像特征;通过在多种特征尺度上堆叠MMFB,文本信息的辅助作用能够得到充分的发挥。此外,本发明还提出了一种新颖的可调控的多尺度多级跳接融合模块(Multi-scale Multi-level Skip Fusion Module,MMSFM),该模块不仅能够提取多尺度特征,还能通过在多个深度级别上将浅层特征与深层特征融合起来以实现信息补偿,同时提高对图像特征的利用率。MMSFM的参数量和特征提取能力是可调控的,通过设置合适的超参数可以实现这两者之间的权衡。受益于MFFB和MMSFM,本发明提出的针对不规则孔洞的多模态人脸图像修复方法能够在人脸图像的不规则受损区域内生成视觉上逼真、语义上合理的具有精细纹理的内容。
本实施例中,可以使用针对不规则孔洞的多模态人脸图像修复系统来执行针对不规则孔洞的多模态人脸图像修复方法。具体地,参照图4,针对不规则孔洞的多模态人脸图像修复系统包括:
第一模块,用于获取待修复人脸图像;
第二模块,用于获取待修复人脸图像对应的隐藏表示信息;
第三模块,用于使用多个多尺度多级跳接融合模块,依次接续对隐藏表示信息进行处理,获得图像特征信息;
第四模块,用于获取待修复人脸图像对应的文本特征信息;
第五模块,用于使用多模态特征融合模块,根据文本特征信息对图像特征信息进行调整,获得多模态融合特征信息;
第六模块,用于对多模态融合特征信息依次进行反卷积和卷积处理,获得重建人脸图像。
其中,各模块可以是软件模块或者硬件模块。当针对不规则孔洞的多模态人脸图像修复系统运行时,可以执行本实施例中的针对不规则孔洞的多模态人脸图像修复方法,具体地,第一模块至第六模块分别执行步骤S1-S6,从而实现针对不规则孔洞的多模态人脸图像修复方法所实现的技术效果。
可以通过编写执行本实施例中的针对不规则孔洞的多模态人脸图像修复方法的计算机程序,将该计算机程序写入至计算机装置或者存储介质中,当计算机程序被读取出来运行时,执行本实施例中的针对不规则孔洞的多模态人脸图像修复方法,从而实现与实施例中的针对不规则孔洞的多模态人脸图像修复方法相同的技术效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (8)
1.一种针对不规则孔洞的多模态人脸图像修复方法,其特征在于,所述针对不规则孔洞的多模态人脸图像修复方法包括:
获取待修复人脸图像;
获取所述待修复人脸图像对应的隐藏表示信息;
使用多个多尺度多级跳接融合模块,依次接续对所述隐藏表示信息进行处理,获得图像特征信息;
获取所述待修复人脸图像对应的文本特征信息;
使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息;
对所述多模态融合特征信息依次进行反卷积和卷积处理,获得重建人脸图像;
所述使用多个多尺度多级跳接融合模块,依次接续对所述隐藏表示信息进行处理,获得图像特征信息,包括:
任一所述多尺度多级跳接融合模块对输入信息进行压缩,获得压缩特征信息,将所述压缩特征信息分别输入至多个多级跳接融合单元,获取各所述多级跳接融合单元分别输出的特征信息,其中不同的多级跳接融合单元输出的特征信息的尺度不同,对全部所述多级跳接融合单元各自输出的特征信息进行融合,获得该所述多尺度多级跳接融合模块的输出信息;
其中,第一个所述多尺度多级跳接融合模块的输入信息为所述隐藏表示信息,其他所述多尺度多级跳接融合模块的输入信息为上一个所述多尺度多级跳接融合模块的输出信息,最后一个所述多尺度多级跳接融合模块的输出信息为所述图像特征信息;
所述使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息,包括:
所述多模态特征融合模块根据所述文本特征信息,生成逐元素的缩放因子和逐通道的偏移因子;
根据所述缩放因子和所述偏移因子对所述图像特征信息进行调整,获得所述多模态融合特征信息。
2.根据权利要求1所述的针对不规则孔洞的多模态人脸图像修复方法,其特征在于,所述获取所述待修复人脸图像对应的隐藏表示信息,包括:
对所述待修复人脸图像连续进行两次下采样,获得所述隐藏表示信息。
3.根据权利要求1所述的针对不规则孔洞的多模态人脸图像修复方法,其特征在于,所述将所述压缩特征信息分别输入至多个多级跳接融合单元,获取各所述多级跳接融合单元分别输出的特征信息,包括:
所述多级跳接融合单元将所述压缩特征信息分成通道数减半的第一组子特征和第二组子特征;
对所述第二组子特征进行卷积;
将所述第一组子特征在多个不同的深度级别上融入到所述第二组子特征的卷积过程中,获得该所述多级跳接融合单元输出的特征信息。
4.根据权利要求1所述的针对不规则孔洞的多模态人脸图像修复方法,其特征在于,所述获取所述待修复人脸图像对应的文本特征信息,包括:
使用描述模型从所述待修复人脸图像中预测出对应的文本描述信息;
使用文本编码器提取所述文本描述信息的句子特征信息;
对所述句子特征信息依次进行若干次反卷积和若干次卷积处理,获得所述文本特征信息。
5.根据权利要求1所述的针对不规则孔洞的多模态人脸图像修复方法,其特征在于,所述根据所述文本特征信息,生成逐元素的缩放因子和逐通道的偏移因子,包括:
通过公式
生成所述缩放因子和所述偏移因子;
其中,表示所述缩放因子,/>表示所述偏移因子,/>表示所述文本特征信息,/>表示ReLU函数,/>表示sigmoid函数,/>表示全局平均池化,/>表示卷积运算。
6.根据权利要求5所述的针对不规则孔洞的多模态人脸图像修复方法,其特征在于,所述根据所述缩放因子和所述偏移因子对所述图像特征信息进行调整,获得所述多模态融合特征信息,包括:
通过公式
对所述图像特征信息进行调整;
其中,表示所述图像特征信息,/>表示所述多模态融合特征信息。
7.根据权利要求1-6任一项所述的针对不规则孔洞的多模态人脸图像修复方法,其特征在于,所述针对不规则孔洞的多模态人脸图像修复方法还包括:
根据原始真实图像和所述重建人脸图像,确定联合损失函数;
根据所述联合损失函数进行训练。
8.一种针对不规则孔洞的多模态人脸图像修复系统,其特征在于,所述针对不规则孔洞的多模态人脸图像修复系统包括:
第一模块,用于获取待修复人脸图像;
第二模块,用于获取所述待修复人脸图像对应的隐藏表示信息;
第三模块,用于使用多个多尺度多级跳接融合模块,依次接续对所述隐藏表示信息进行处理,获得图像特征信息;
第四模块,用于获取所述待修复人脸图像对应的文本特征信息;
第五模块,用于使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息;
第六模块,用于对所述多模态融合特征信息依次进行反卷积和卷积处理,获得重建人脸图像;
所述使用多个多尺度多级跳接融合模块,依次接续对所述隐藏表示信息进行处理,获得图像特征信息,包括:
任一所述多尺度多级跳接融合模块对输入信息进行压缩,获得压缩特征信息,将所述压缩特征信息分别输入至多个多级跳接融合单元,获取各所述多级跳接融合单元分别输出的特征信息,其中不同的多级跳接融合单元输出的特征信息的尺度不同,对全部所述多级跳接融合单元各自输出的特征信息进行融合,获得该所述多尺度多级跳接融合模块的输出信息;
其中,第一个所述多尺度多级跳接融合模块的输入信息为所述隐藏表示信息,其他所述多尺度多级跳接融合模块的输入信息为上一个所述多尺度多级跳接融合模块的输出信息,最后一个所述多尺度多级跳接融合模块的输出信息为所述图像特征信息;
所述使用多模态特征融合模块,根据所述文本特征信息对所述图像特征信息进行调整,获得多模态融合特征信息,包括:
所述多模态特征融合模块根据所述文本特征信息,生成逐元素的缩放因子和逐通道的偏移因子;
根据所述缩放因子和所述偏移因子对所述图像特征信息进行调整,获得所述多模态融合特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211581446.9A CN115760646B (zh) | 2022-12-09 | 2022-12-09 | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211581446.9A CN115760646B (zh) | 2022-12-09 | 2022-12-09 | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115760646A CN115760646A (zh) | 2023-03-07 |
CN115760646B true CN115760646B (zh) | 2024-03-15 |
Family
ID=85344976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211581446.9A Active CN115760646B (zh) | 2022-12-09 | 2022-12-09 | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115760646B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635275B (zh) * | 2023-12-19 | 2024-05-24 | 浙江博观瑞思科技有限公司 | 基于大数据的智能电商运营商品管理平台及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020096368A1 (en) * | 2018-11-09 | 2020-05-14 | Samsung Electronics Co., Ltd. | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting |
CN111784602A (zh) * | 2020-06-28 | 2020-10-16 | 江西理工大学 | 一种生成对抗网络用于图像修复的方法 |
WO2022110638A1 (zh) * | 2020-11-30 | 2022-06-02 | 深圳市慧鲤科技有限公司 | 人像修复方法、装置、电子设备、存储介质和程序产品 |
CN114862696A (zh) * | 2022-04-07 | 2022-08-05 | 天津理工大学 | 一种基于轮廓和语义引导的人脸图像修复方法 |
-
2022
- 2022-12-09 CN CN202211581446.9A patent/CN115760646B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020096368A1 (en) * | 2018-11-09 | 2020-05-14 | Samsung Electronics Co., Ltd. | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting |
CN111784602A (zh) * | 2020-06-28 | 2020-10-16 | 江西理工大学 | 一种生成对抗网络用于图像修复的方法 |
WO2022110638A1 (zh) * | 2020-11-30 | 2022-06-02 | 深圳市慧鲤科技有限公司 | 人像修复方法、装置、电子设备、存储介质和程序产品 |
CN114862696A (zh) * | 2022-04-07 | 2022-08-05 | 天津理工大学 | 一种基于轮廓和语义引导的人脸图像修复方法 |
Non-Patent Citations (2)
Title |
---|
基于生成对抗网络的图像修复技术研究;李炬;黄文培;;计算机应用与软件(第12期);全文 * |
基于级联生成对抗网络的人脸图像修复;陈俊周;王娟;龚勋;;电子科技大学学报(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115760646A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lim et al. | DSLR: Deep stacked Laplacian restorer for low-light image enhancement | |
CN109493350B (zh) | 人像分割方法及装置 | |
CN109670558B (zh) | 使用深度学习的数字图像完成 | |
CN108604369B (zh) | 一种去除图像噪声的方法、装置、设备及卷积神经网络 | |
CN109271933A (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN112184585B (zh) | 一种基于语义边缘融合的图像补全方法及系统 | |
KR102513707B1 (ko) | 학습 장치, 추론 장치, 학습 모델 생성 방법 및 추론 방법 | |
US20220156987A1 (en) | Adaptive convolutions in neural networks | |
CN113379786B (zh) | 图像抠图方法、装置、计算机设备及存储介质 | |
CN108124489B (zh) | 信息处理方法、装置、云处理设备以及计算机程序产品 | |
CN115760646B (zh) | 一种针对不规则孔洞的多模态人脸图像修复方法和系统 | |
CN115908753B (zh) | 一种全身人体网格表面重建方法及相关装置 | |
KR20190093712A (ko) | 정보 예측을 위한 시스템, 방법 및 프로그램 | |
CN115049556A (zh) | 一种基于StyleGAN的人脸图像修复方法 | |
CN112862838A (zh) | 基于用户实时点击交互的自然图像抠图方法 | |
CN115049780A (zh) | 深度渲染模型训练方法和装置、目标渲染方法和装置 | |
Cui et al. | Progressive dual-branch network for low-light image enhancement | |
Zheng et al. | Windowing decomposition convolutional neural network for image enhancement | |
Suthar et al. | Hardware software co-simulation for image processing applications | |
CN111738092B (zh) | 一种基于深度学习的恢复被遮挡人体姿态序列方法 | |
KR101766149B1 (ko) | 저연산 스테레오 영상 매칭 장치 및 방법 | |
WO2021113181A1 (en) | Techniques for compressing images to achieve a target quality level | |
CN116434303A (zh) | 基于多尺度特征融合的人脸表情捕捉方法、装置及介质 | |
CN110958449B (zh) | 三维视频主观感知质量预测方法 | |
CN111627098A (zh) | 对图像中水流区域识别并生成动态水流视频的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |