CN114299588A

CN114299588A - 一种基于局部空间转换网络的实时目标编辑方法

Info

Publication number: CN114299588A
Application number: CN202111654265.XA
Authority: CN
Inventors: 戴国骏; 项雷雷; 周文晖; 张桦; 张灵均; 苟若芸
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08
Anticipated expiration: 2041-12-30
Also published as: CN114299588B

Abstract

本发明公开了一种基于局部空间转换网络的实时目标编辑方法，首先获取高分辨率图像并制作训练数据集和测试数据集，然后通过掩码转换网络获取目标掩码的仿射变换矩阵，并实现目标图像的采样再使用空洞修复网络修复图像空洞，最后通过获得的数据集训练并测试掩码转换网络和空洞修复网络。本发明MTN专注于掩码学习，可使用与业务无关的数据集训练网络模型，降低了构建数据集的成本和模型的训练成本，完成目标编辑任务的同时解决了传统深度学习方法中图像空洞的出现问题。

Description

一种基于局部空间转换网络的实时目标编辑方法

技术领域

本发明涉及计算机视觉及数字图像处理领域，具体涉及一种基于局部空间转换网络的实时目标编辑方法。

背景技术

目标编辑是一种根据给定的目标区域执行特定图像编辑操作的方法。常见的图像编辑操作有平移、缩放等。目标编辑在休闲娱乐和图像编辑领域有着广泛应用，已成为是计算机视觉领域的一大研究热点。随着智能移动终端的普及，非专业拍照的业务场景越来越多，人们期待通过后期目标编辑修改图像以提升图像视觉效果。

最近几年，随着卷积神经网络在计算机视觉领域的成功应用，基于深度学习的目标编辑方法有了重大进步。然而，目前的目标编辑方法仍然存在局限性。具体来说，存在以下两个问题：一是深度学习方法需要大量与业务相关的数据集参与网络模型的训练，例如，针对人脸的目标编辑任务，我们需要使用人脸数据集参与训练。而并不是所有的数据集的方便收集。二是对目标的平移操作会造成图像空洞的出现，破坏图像完整性。

发明内容

为了解决现有技术中的上述问题，即数据集与任务强相关、图像编辑导致图像空洞的问题，本发明提供了一种基于局部空间转换网络的实时目标编辑方法，该方法通过以下几个步骤来实现：

步骤1，获取高分辨率图像并制作训练数据集和测试数据集。

步骤2，通过掩码转换网络(Mask Transformation Network，MTN)获取目标掩码的仿射变换矩阵，并实现目标图像的采样。

步骤3，使用空洞修复网络(Hole Repair Network)修复图像空洞。

步骤4，通过步骤1获得的数据集训练并测试掩码转换网络和空洞修复网络。

进一步的，步骤1中数据集应包含以下四类图像：源图像(Source Image，I_source)、源掩码(Sourcemask，M_source)、目标图像(Target Image,I_target)和目标掩码(Targetmask,M_target)，各类图像应有以下特征，首先，I_source由特定的对象(如猫、狗、自行车等)与背景组成；M_source为二值灰度图，用于标注I_source中对象的位置与轮廓；M_target由编辑后的对象与背景组成；M_target为二值灰度图，用于标注I_target中对象的位置与轮廓。

进一步的，步骤1具体方法如下：

1-1.准备数据集素材。素材分为对象素材与背景素材，本发明使用开源数据集COCO-猫的目标对象作为对象素材，将开源风景数据集作为最终数据集的背景素材。

1-2.生成对象素材和对应的掩码。设置随机仿射矩阵，选用合适的参数范围。通过仿射变换生成两组图像，一组为源对象素材和源掩码M_source，另一组为目标对象素材和目标掩码M_target。在生成过程中保证对象素材不会超出图像边界，保证对象素材轮廓的完整性。

1-3.合成数据集。源图像I_source和目标图像I_target由对应的对象素材I_t-obj、背景素材I_t-bg和掩码M_t通过掩码操作融合生成。掩码操作公式如下：

I_t＝M_t*I_t-obj+(1-M_t)*I_t-bg,t∈(source,target)#(1)

最终得到5000组训练数据集和486组测试数据集。

进一步的，步骤2中，掩码转换网络MTN包括参数学习模块(Localisation net)，采样网格生成模块(Grid generator)，重采样模块(Sampler)和辅助训练模块(Auxiliarytraining module)。为了学习两个图像掩码之间的空间变换关系，使用参数学习模块学习两个掩码的仿射变换矩阵(Affine matrix)，使用采样网格生成模块和重采样模块实现图像的目标区域坐标重采样，最后加入辅助训练模块保证参数学习模块的网络模型训练。

进一步的，步骤2具体方法如下：

2-1.搭建参数学习模块。

参数学习模块包含两个子模块，第一个子模块用于提取图像特征，由4个卷积层与一个自适应平均池化层组成，其中每个卷积层都使用ReLU激活函数，第二个和第四个卷积层使用跨步卷积，步长为2。第二个子模块使用全连层将图像特征图映射为仿射矩阵所需的6个参数。

2-2.采样。

通过仿射矩阵计算目标图像I_target中目标对象区域像素点的坐标，生成坐标映射网格。根据坐标映射网格对源图像I_source采样，生成仿射图像(Affine transformationimage，I_affine)和对应的仿射变换掩码(Affine transformation mask，M_affine)。

2-3.搭建辅助训练模块。

辅助训练模块用于辅助训练参数学习模块。该模块为自动编解码结构，编码器由四个卷积层组成，第一个和第三个卷积采用跨步卷积缩小特征图的空间尺寸；解码器由两个卷积层与两个上采样层组成，上采样层位于第一和第三层，同时编码器和解码器的每个卷积层都使用Leaky ReLU函数作为激活函数。

进一步的，步骤3具体方法如下：

使用空洞修复网络修复图像空洞。所述的空洞修复网络包含两个子修复网络：粗糙修复网络(Coarse)和细化修复网络(Refine)。粗糙修复网络生成粗修复图像，细化修复网络使用粗修复图像作为输入。

3-1.搭建粗糙修复网络模型和细化修复网络模型。

粗糙修复网络和细化修复网络使用相同的结构，以粗糙修复网络为例。网络模型采用自编码器结构，通过编码器(由2个跨步卷积层和若干个卷积层组成)生成特征图，然后使用4层跨步卷积层扩展网络模型感受野，便于该网络模型提取较远区域的图像特征来修补空洞，最后通过解码器(由2个上采样层和若干个卷积层组成)输出结果图。为了获得更好的修复效果，将所有基本卷积层替换为门控卷积层，以便在训练过程中自适应地选择重要特征。

3-2.粗糙修复网络用于修复仿射图像I_affine中因目标编辑产生的空洞。通过源掩码M_source和仿射变换掩码M_affine计算空洞掩码M_hole，通过空洞掩码M_hole和仿射图像I_affine计算空洞图像I_hole，粗糙修复网络的输入数据IN_coarse为输入的仿射图像I_affine、空洞图像I_hole和空洞掩码M_hole在通道维度拼接而成，计算公式如下。

M_hole＝M_source|M_affine-M_affine#(2)

I_hole＝I_affine×(1-M_hole)+M_hole#(3)

IN_coarse＝(I_hole；M_hole)#(4)

3-3.使用粗糙修复网络模型生成粗修复图像I_c，保留I_c中空洞掩码M_hole区域图像，将背景使用仿射图像I_affine替换，得到粗糙空洞修复图像I_coarse，细化修复网络的输入数据IN_refine为粗糙空洞修复图像I_coarse与空洞掩码M_hole在通道维度拼接而成，计算公式如下。

I_coarse＝I_affine*(1-M_hole)+I_c*M_hole#(5)

IN_refine＝(I_coarse；M_hole)#(6)

3-4.使用细化修复网络模型生成细化修复图像I_r，由于粗糙空洞修复图像I_coarse比空洞图像I_hole拥有更多的特征信息，细化修复网络模型能进一步修复图像空洞的纹理细节。对于细化修复图像I_r同I_c一样使用仿射图像I_affine替换背景，得到结果图像，计算公式如下：

I_output＝I_affine*(1-M_hole)+I_r*M_hole#(7)

进一步的，步骤4具体方法如下：

4-1.对于MTN，使用两种损失函数保证网络模型的训练，第一种是带权均方差损失函数，让网络专注于掩码区域的学习；第二种是掩码尺度损失函数，将网络生成的目标掩码区域面积与实际目标区域面积的距离作为损失，来保证网络对掩码位置与尺度的学习。

4-2.对于粗糙修复网络模型和细化修复网络模型，使用L1损失函数计算网络模型输出图像中M_hole区域的损失，不计算图像背景区域的损失。

4-3.通过步骤1获得的测试数据集对掩码转换网络和空洞修复网络进行测试。

本发明有益效果如下：

1)MTN专注于掩码学习，可使用与业务无关的数据集训练网络模型，降低了构建数据集的成本和模型的训练成本。

2)完成目标编辑任务的同时解决了传统深度学习方法中图像空洞的出现问题。

附图说明

图1为本发明实施例掩码转换网络结构示意图；

图2为本发明实施例目标编辑执行流程图；

图3为本发明实施例参数学习模块网络结构示意图；

图4为本发明实施例粗糙/细化修复网络结构示意图。

具体实施方法

以下结合附图与实施例对本发明方法进行进一步描述。

如图1、图2所示，一种基于局部空间转换网络的实时目标编辑方法，包括以下步骤：

步骤1，获取高分辨率图像并制作训练数据集和测试数据集。

数据集应包含以下四类图像：源图像(Source Image，I_source)、源掩码(Sourcemask，I_source)、目标图像(Target Image,I_target)和目标掩码(Target mask,M_target)，各类图像应有以下特征，首先，I_source由特定的对象(如猫、狗、自行车等)与背景组成；M_source为二值灰度图，用于标注I_source中对象的位置与轮廓；M_target由编辑后的对象与背景组成；M_target为二值灰度图，用于标注I_target中对象的位置与轮廓。

1-2.生成对象素材和对应的掩码。设置随机仿射矩阵，选用合适的参数范围(本发明中缩放参数设置为0到2倍，平移参数设置为0到1倍)。通过仿射变换生成两组图像，一组为源对象素材和源掩码M_source，另一组为目标对象素材和目标掩码M_target。在生成过程中保证对象素材不会超出图像边界，保证对象素材轮廓的完整性。

I_t＝M_t*I_t-obj+(1-M_t)*I_t-bg,t∈(source,target)#(1)

最终得到5000组训练数据集和486组测试数据集。

图3为本发明实施例参数学习模块网络结构示意图；

掩码转换网络MTN包括参数学习模块(Localisation net)，采样网格生成模块(Grid generator)，重采样模块(Sampler)和辅助训练模块(Auxiliary trainingmodule)，结构如图1所示。为了学习两个图像掩码之间的空间变换关系，使用参数学习模块学习两个掩码的仿射变换矩阵(Affine matrix)，使用采样网格生成模块和重采样模块实现图像的目标区域坐标重采样，最后加入辅助训练模块保证参数学习模块的网络模型训练。

2-1.搭建参数学习模块。

2-2.采样。

2-3.搭建辅助训练模块。

辅助训练模块用于辅助训练参数学习模块。该模块为自动编解码结构，编码器由四个卷积层组成，第一个和第三个卷积采用跨步卷积缩小特征图的空间尺寸；解码器由两个卷积层与两个上采样层组成，上采样层位于第一和第三层，同时编码器和解码器的每个卷积层都使用LeakyReLU函数作为激活函数。

步骤3，使用空洞修复网络(Hole Repair Network)修复图像空洞。

图4为本发明实施例粗糙/细化修复网络结构示意图；

3-1.搭建粗糙修复网络模型和细化修复网络模型。

M_hole＝M_source|M_affine-M_affine#(2)

I_hole＝I_affine×(1-M_hole)+M_hole#(3)

IN_coarse＝(I_hole；M_hole)#(4)

I_coarse＝I_affine*(1-M_hole)+I_c*M_hole#(5)

IN_refine＝(I_coarse；M_hole)#(6)

I_output＝I_affine*(1-M_hole)+I_r*M_hole#(7)

Claims

1.一种基于局部空间转换网络的实时目标编辑方法，其特征在于，步骤如下：

步骤1，获取高分辨率图像并制作训练数据集和测试数据集；

步骤2，通过掩码转换网络(Mask Transformation Network，MTN)获取目标掩码的仿射变换矩阵，并实现目标图像的采样；

步骤3，使用空洞修复网络(Hole Repair Network)修复图像空洞；

2.根据权利要求1所示的一种基于局部空间转换网络的实时目标编辑方法，其特征在于，步骤1中数据集应包含以下四类图像：源图像I_source、源掩码M_source、目标图像I_target和目标掩码M_target，各类图像应有以下特征，首先，I_source由特定的对象与背景组成；M_source为二值灰度图，用于标注I_source中对象的位置与轮廓；I_target由编辑后的对象与背景组成；M_target为二值灰度图，用于标注I_target中对象的位置与轮廓。

3.根据权利要求2所示的一种基于局部空间转换网络的实时目标编辑方法，其特征在于，步骤1具体方法如下：

1-1.准备数据集素材；素材分为对象素材与背景素材，本发明使用开源数据集COCO-猫的目标对象作为对象素材，将开源风景数据集作为最终数据集的背景素材；

1-2.生成对象素材和对应的掩码；设置随机仿射矩阵，选用合适的参数范围；通过仿射变换生成两组图像，一组为源对象素材和源掩码M_source，另一组为目标对象素材和目标掩码M_target；在生成过程中保证对象素材不会超出图像边界，保证对象素材轮廓的完整性；

1-3.合成数据集；源图像I_source和目标图像I_target由对应的对象素材I_t-obj、背景素材I_t-bg和掩码M_t通过掩码操作融合生成；掩码操作公式如下：

I_t＝M_t*I_t-obj+(1-M_t)*I_t-bg，t∈(source，target) (1)

最终得到5000组训练数据集和486组测试数据集。

4.根据权利要求1所示的一种基于局部空间转换网络的实时目标编辑方法，其特征在于，步骤2中，掩码转换网络MTN包括参数学习模块，采样网格生成模块，重采样模块和辅助训练模块；为了学习两个图像掩码之间的空间变换关系，使用参数学习模块学习两个掩码的仿射变换矩阵，使用采样网格生成模块和重采样模块实现图像的目标区域坐标重采样，最后加入辅助训练模块保证参数学习模块的网络模型训练。

5.根据权利要求4所示的一种基于局部空间转换网络的实时目标编辑方法，其特征在于，步骤2具体方法如下：

2-1.搭建参数学习模块；

参数学习模块包含两个子模块，第一个子模块用于提取图像特征，由4个卷积层与一个自适应平均池化层组成，其中每个卷积层都使用ReLU激活函数，第二个和第四个卷积层使用跨步卷积，步长为2；第二个子模块使用全连层将图像特征图映射为仿射矩阵所需的6个参数；

2-2.采样；

通过仿射矩阵计算目标图像I_target中目标对象区域像素点的坐标，生成坐标映射网格；根据坐标映射网格对源图像I_source采样，生成仿射图像I_affine和对应的仿射变换掩码M_affine；

2-3.搭建辅助训练模块；

辅助训练模块用于辅助训练参数学习模块；该模块为自动编解码结构，编码器由四个卷积层组成，第一个和第三个卷积采用跨步卷积缩小特征图的空间尺寸；解码器由两个卷积层与两个上采样层组成，上采样层位于第一和第三层，同时编码器和解码器的每个卷积层都使用Leaky ReLU函数作为激活函数。

6.根据权利要求1所示的一种基于局部空间转换网络的实时目标编辑方法，其特征在于，步骤3具体方法如下：

使用空洞修复网络修复图像空洞；所述的空洞修复网络包含两个子修复网络：粗糙修复网络和细化修复网络；粗糙修复网络生成粗修复图像，细化修复网络使用粗修复图像作为输入；

3-1.搭建粗糙修复网络模型和细化修复网络模型；

粗糙修复网络和细化修复网络使用相同的结构，以粗糙修复网络为例；网络模型采用自编码器结构，通过编码器生成特征图，然后使用4层跨步卷积层扩展网络模型感受野，便于该网络模型提取较远区域的图像特征来修补空洞，最后通过解码器输出结果图；为了获得更好的修复效果，将所有基本卷积层替换为门控卷积层，以便在训练过程中自适应地选择重要特征；

3-2.粗糙修复网络用于修复仿射图像I_affine中因目标编辑产生的空洞；通过源掩码M_source和仿射变换掩码M_affine计算空洞掩码M_hole，通过空洞掩码M_hole和仿射图像I_affine计算空洞图像I_hole，粗糙修复网络的输入数据IN_coarse为输入的仿射图像I_affine、空洞图像I_hole和空洞掩码M_hole在通道维度拼接而成，计算公式如下；

M_hole＝M_source|M_affine-M_affine (2)

I_hole＝I_affine×(1-M_hole)+M_hole (3)

IN_coarse＝(I_hole；M_hole) (4)

3-3.使用粗糙修复网络模型生成粗修复图像I_c，保留I_c中空洞掩码M_hole区域图像，将背景使用仿射图像I_affine替换，得到粗糙空洞修复图像I_coarse，细化修复网络的输入数据IN_refine为粗糙空洞修复图像I_coarse与空洞掩码M_hole在通道维度拼接而成，计算公式如下；

I_coarse＝I_affine*(1-M_hole)+I_c*M_hole (5)

IN_refine＝(I_coarse；M_hole) (6)

3-4.使用细化修复网络模型生成细化修复图像I_r，由于粗糙空洞修复图像I_coarse比空洞图像I_hole拥有更多的特征信息，细化修复网络模型能进一步修复图像空洞的纹理细节；对于细化修复图像I_r同I_c一样使用仿射图像I_affine替换背景，得到结果图像，计算公式如下：

I_output＝I_affine*(1-M_hole)+I_r*M_hole (7)。

7.根据权利要求1所示的一种基于局部空间转换网络的实时目标编辑方法，其特征在于，步骤4具体方法如下：

4-1.对于掩码转换网络MTN，使用两种损失函数保证网络模型的训练，第一种是带权均方差损失函数，让网络专注于掩码区域的学习；第二种是掩码尺度损失函数，将网络生成的目标掩码区域面积与实际目标区域面积的距离作为损失，来保证网络对掩码位置与尺度的学习；

4-2.对于粗糙修复网络模型和细化修复网络模型，使用L1损失函数计算网络模型输出图像中M_hole区域的损失，不计算图像背景区域的损失；