CN112507849A

CN112507849A - 一种基于条件生成对抗网络的动态到静态场景转换方法

Info

Publication number: CN112507849A
Application number: CN202011396405.3A
Authority: CN
Inventors: 吴麟; 孙长银; 陆科林; 徐乐玏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-16

Abstract

本发明涉及一种基于条件生成对抗网络的动态到静态场景转换方法，该方法生成器为由粗到细的串级两阶段网络，判别器为PatchGAN与SN‑PatchGAN。本发明根据粗网络输出结果与动态场景的像素值差异推断动态区域二值掩膜，随后由细网络对动态区域进行静态恢复。本发明提取细网络编码区的深层与浅层特征后，分别采用上下文注意力机制来优化动态区域场景生成。本发明采用的判别器相较于传统判别器更能关注到图像细节且训练过程更为稳定。本发明相比于传统动态到静态场景转换方法，提取的动态目标区域更为准确，生成的动态场景图像纹理丰富、更接近真实情况。

Description

一种基于条件生成对抗网络的动态到静态场景转换方法

技术领域

本发明涉及一种转换方法，具体涉及一种基于条件生成对抗网络的动态到静态场景转换方法，属于深度学习与图像生成技术领域。

背景技术

动态场景给基于视觉的机器人的位姿估计以及定位任务提出了较高的挑战。传统的解决方案是利用动态目标检测技术来区分图像区域的有效性，通过舍弃动态区域信息，仅利用静态区域进行位姿估计或定位。然而，当动态目标区域检测不准确或动态区域过大时，这种方法将导致有效信息不准确或太少，继而导致位姿估计或定位误差增大。为了改善这个现象，动态到静态场景转换方法被提出(Bescos B,Neira J,Siegwart R,et al.EmptyCities:Image Inpainting for a Dynamic-Object-Invariant Space[C].ICRA,2019)。其核心思想为，根据动态场景图像的内容推测其对应的静态场景图像。由于深度学习技术的发展，特别是图像生成领域的发展，使得这种转换成为可能。现有转换方法是利用条件生成对抗网络(P.Isola,J.-Y.Zhu,T.Zhou,and A.A.Efros.Image-to-image translationwith conditional adversarial networks[C].CVPR,2017)，然而这种方法将生成静态场景图像的所有像素，尽管可以做到整张图像与真实图像平均像素误差较小，但由于均值的影响导致该方法在图像纹理与细节方面表现较差，而在机器人位姿估计与定位任务中图像细节与纹理信息却尤为重要。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于条件生成对抗网络的动态到静态场景转换方法，该技术方案可以提高图像动态区域的识别准确性以及图像场景转换的精度与语义一致性。

为了实现上述目的，本发明的技术方案如下，一种基于条件生成对抗网络的动态到静态场景转化方法，包括如下步骤：

步骤1，利用RGB相机采集到的城镇场景下相同位置的动态与静态两个场景的图像并裁剪、缩放至指定尺寸，利用标注的方法获得动态场景中动态目标，包括行人、车辆的二值掩膜。

步骤2，构建条件生成网络，生成器是由粗到细的两部分卷积神经网络(Coarse tofine Network)构成，粗粒度生成网络(以下简称粗网络)是遵循U-Net模型结构的全卷积神经网络，细粒度生成网络(以下简称细网络)是含有上下文注意力机制的全卷积神经网络；判别器采用图像块判别器(PatchGAN)与谱归一化判别器(SN-PatchGAN)，其中粗网络生成图像输入PatchGAN判别器，细网络生成结果输入SN-PatchGAN判别器。

步骤3，利用采集的城镇场景的动态场景、静态场景、动态目标掩膜训练上述条件生成对抗神经网络。

步骤4，将转换的动态场景裁剪，缩放至指定尺寸，输入训练好的条件生成对抗网络，获得条件生成对抗网络的生成器输出的与动态场景相对应的静态场景。

与现有技术相比，本发明的有益效果是：(1)通过由粗到细的串级两阶段生成网络中的粗网络生成的结果与输入静态场景图像推断动态区域，获得的动态区域掩膜比输入的动态目标掩膜更为准确，如包括了行人与车辆所带来的阴影、行人所持雨伞、行李箱等；(2)细网络考虑生成图像纹理与结构信息，在网络的浅层与深层分别采用上下文注意力机制来优化动态区域场景转换的语义一致性、纹理与细节；(3)采用两种不同的判别器，提高了粗粒度以及细粒度生成图像的真实性；(4)使用PatchGAN判别器与频谱归一化操作，有利于提高训练过程的稳定性。

附图说明

图1是本发明给出的条件生成对抗网络的整体框架图；

图2是本发明提及的粗粒度网络框架图；

图3是本发明提及的细粒度网络框架图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1，一种基于条件生成对抗网络的动态到静态场景转化方法，包括如下步骤：

步骤1：数据预处理阶段；

步骤2：模型构建阶段，所述模型包括由粗到细的串级两阶段生成网络，以及两种类型的判别网络，

步骤3：模型参数训练阶段，

步骤4：动态到静态场景图像转换模块阶段；

在数据预处理阶段，对数据进行处理以满足网络要求。首先对数据集里的图像进行随机裁剪和缩放并制作训练数据，以同一地点的动态场景、动态目标二值掩膜、静态场景为一组数据，构建多组训练数据。

在模型构建阶段，根据模型设计并搭建对应的深度神经网络。所述网络包括生成网络G(包括粗网络G₁、细网络G₂)以及判别网络D(包括PatchGAN判别网络D₁、SN-PatchGAN判别网络D₂)。

在模型参数训练阶段，根据构建的模型，设计对应的损失函数，并确定生成网络与判别网络的优化器以及优化过程。

在动态到静态场景图像转换模块阶段，输入动态场景图像x₁与动态目标掩膜m₁至训练好的生成网络G，网络将输出对应的静态场景图像。

下面介绍各阶段具体内容。

(1)数据预处理阶段，为满足神经网络对输入数据的要求，需要对数据进行预处理。在预处理阶段，对数据进行数值的归一化、图像尺寸调整。首先将图像的像素值放缩到[-1,1]之间，然后对数据尺寸进行调整。模型训练模块要求输入图像的分辨率是256×256，为了避免直接调整图像大小造成的图像失真和信息丢失，若图像的分辨率不是256×256，采取随机裁剪的方式从原图中取一块尺寸为256×256的局部区域图像作为训练图像。

(2)模型构建阶段，所述模型包括由粗到细的串级两阶段生成网络，以及两种类型的判别网络，整体模型框架如图1所示。

其中，粗网络G₁采用U-Net，其网络结构如图2所示。考虑通过最小化重建损失以及GAN损失，生成的粗粒度静态场景图像I₁与真实静态场景y各个像素值将尽可能接近，故粗网络输出结果与输入的动态场景图像x₁的绝对像素误差能反映出动态区域，设误差阈值为τ，则动态区域二值掩膜m₂为

m₂＝filter(m₁∨||G₁(x₁,m₁)-x₁||＞τ)

其中，filter表示滤波操作，以抑制动态区域检测的噪声。

细网络G₂是含有跳接的多层全卷积网络，分为编码网络与解码网络，如图3所示。当动态区域掩膜获取后，G₂则可视为具有确定性Ground Truth的图像修复网络，设其输入的受损图像为x₂，有

x₂＝x₁⊙(1-m₂)+G₁(x₁,m₁)⊙m₂

由于深度卷积网络的特性，浅层主要包含纹理信息、深度主要包含结构信息，因此提取两种特征并融合至解码网络入口。考虑到上下文注意力机制(Contextual Attention,CA)可以从已知背景图像块借用或复制特征信息的位置以生成缺失图像块，因此利用其图像纹理修复方面的优势分别对浅层与深层网络进行处理。然后将两个方面的特征图通过挤压与激励机制(Squeeze-and-Excitation Network，SENet)进行融合，与编码网络的特征图合并送入解码网络得到最终输出的静态场景图像I₂，有

I₂＝x₁⊙(1-m₂)+G₂(x₂,m₂)⊙m₂

本发明涉及的上下文注意力机制：在背景中提取3×3大小的图像块并将它们重新整形为卷积滤波器，为了匹配前景图像块f_x,y，背景图像块b_x',y'，采用余弦相似度进行测量，得到每个像素注意力得分，再以特征图的形式融入网络进行计算。

其中，S_{x，y，x′，y′}表示以背景(x′，y′)和前景(x，y)为中心的图像块的相似性，然后在x′y′的维度上以缩放的SoftMax来衡量相似度，得到每个像素的注意力得分。

其中，λ为常数。注意力得分获取后，再据此挑选合适的背景图像块作为反卷积滤波器来重建前景区域。

本发明涉及的挤压与激励机制：首先对卷积得到的特征图进行挤压操作，得到通道级的全局特征，然后对全局特征进行激励操作，得到不同通道的权重，最后乘上原来的特征得到最终特征图。

对于c×H×W大小的特征图，挤压操作对每个通道采用全局平均池化实现，即

为了获取各个通道间的非线性关系，采用激励机制，即Sigmoid形式的门控机制。

s＝F_ex(z,W)＝σ(g(z,W))

其中，g(z,W)＝W₂·ReLu(W₁·z)，

为了降低模型复杂度以及提升泛化能力，这里采用包含两个全连接层的bottleneck结构，其中第一个FC层起到降维的作用，降维系数为r，然后采用ReLU激活，最后的FC层恢复原始的维度。获取各个通道的激活值后，乘以原始特征，得到最终特征图s·u。

PatchGAN判别器D₁为全卷积网络，与普通GAN判别器将输入映射为一个实数(即输入样本为真样本的概率)不同，PatchGAN是将输入映射为N×N的特征图，图中每个值代表相应的图像块(也即感受野)为真样本的概率。之后，再对特征图求取均值作为判别器输出，这样比普通的GAN判别器更能关注到图像细节。

SN-PatchGAN判别器D₂是含有谱归一化的全卷积网络，由于细网络只修复动态区域，因此将动态区域二值化掩膜也作为判别器输入。但由于动态区域是任意形式的，故而采用谱归一化使得判别器训练更为稳定。其做法是将神经网络的每层参数做非奇异值分解，然后将其最大奇异值限定为1，以满足1-Lipschitz条件。为提升效率，在实际计算中，通过幂迭代法以获得奇异值的近似解。

(3)模型参数训练阶段，本发明将动态场景图像到静态场景图像的转换过程分为两个子阶段，每个子阶段的优化目标不尽相同，因此在每个阶段都会使用相应的损失函数来指导该阶段网络参数的训练。生成网络方面，粗网络损失函数包括重建损失、GAN损失，细粒度网络包括局部重建损失、GAN损失、感知损失。判别网络方面，两个判别器只涉及对抗损失。

粗网络重建损失：重建损失是对场景转换后的图像与真实静态场景图像在像素空间上的差异进行惩罚，用于确保转换后的场景图像和真实静态图像在像素上相似。避免L₂损失下对噪声过于敏感，高频信息处理效果差等问题，本发明采用L₁损失，即

粗网络GAN损失：生成对抗网络采用判别网络带来的GAN损失来指导生成网络，使得伪造图像的数据分布和自然图像相近。GAN损失定义如下

其中，D₁为粗粒度网络全局判别器。

细网络重建损失：与粗网络类似，但只关注于动态区域部分，其定义如下

细网络GAN损失：与粗网络类似，但SN-PatchGAN判别器增加了m₂，有

细网络感知损失：与粗网络类似，但只关注于动态区域部分，有

其中，q是所选择的VGG-16的层数，本发明使用网络层为pool1，pool2，pool3。

PatchGAN判别器损失，考虑真实数据经过判别器输出真的概率尽可能大，伪造数据输出为假的概率尽可能大，因此定义为

同理，SN-PatchGAN判别器损失，定义为

生成网络G的联合损失是重建损失、GAN损失、感知损失的加权和，总的损失函数如下

Loss_g＝Loss₁+Loss₂

判别网络D的联合损失函数如下

生成对抗神经网络是通过生成网络和判别网络之间的“博弈”进行训练的，输入的数据组合为同一地点对应的动态场景图像、动态目标二值掩膜，以及真实的静态场景图像，利用联合损失函数，交替训练生成网络和判别网络，训练采用Adam优化器。

为了更精准地获取动态区域掩膜，可以先以Loss₁为损失函数训练粗网络、以

为损失函数训练PatchGAN判别器参数，之后固定住两者网络参数，再以Loss₂训练细网络、以

训练SN-PatchGAN判别器参数。

(4)动态到静态场景图像转换模块阶段，输入动态场景图像x₁与动态目标掩膜m₁至训练好的生成网络，网络将输出对应的静态场景图像I₂，其在语义一致性、纹理以及其他细节上皆具有较好的表现。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所做出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，所述方法包括以下步骤：

步骤1：数据预处理阶段；

步骤2：模型构建阶段，所述模型包括由粗到细的串级两阶段生成网络，以及两种类型的判别网络；

步骤3：模型参数训练阶段；

步骤4：动态到静态场景图像转换模块阶段。

2.根据权利要求1所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，步骤1，数据预处理阶段，具体如下，利用RGB相机采集到的城镇场景下相同位置的动态与静态两个场景的图像并裁剪、缩放至指定尺寸，利用标注的方法获得动态场景中动态目标，包括行人、车辆的二值掩膜。

3.根据权利要求2所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，步骤2，模型构建阶段，具体如下，构建条件生成网络，生成器是由粗到细的两部分卷积神经网络(Coarse to fine Network)构成，粗粒度生成网络(以下简称粗网络)是遵循U-Net模型结构的全卷积神经网络，细粒度生成网络(以下简称细网络)是含有空间与通道双重注意力机制的全卷积神经网络；判别器采用图像块判别器(PatchGAN)与谱归一化判别器(SN-PatchGAN)，其中粗网络生成图像输入PatchGAN判别器，细网络生成结果输入SN-PatchGAN判别器。

4.根据权利要求3所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，步骤3，模型训练阶段，具体如下，利用采集的城镇场景的动态场景、静态场景、动态目标掩膜训练上述条件生成对抗神经网络。

5.根据权利要求3或4所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，步骤4：动态到静态场景图像转换模块阶段，将转换的动态场景裁剪，缩放至指定尺寸，输入训练好的条件生成对抗网络，获得条件生成对抗网络的生成器输出的与动态场景相对应的静态场景。

6.根据权利要求5所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，所述步骤2中，使用U-Net生成粗粒度静态场景图像，并由输入动态场景图像，计算两张图像像素绝对误差，设定阈值进行划分。

7.根据权利要求6所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，所述步骤3中，从粗粒度生成网络编码区域提取纹理与结构信息，并通过上下文注意力机制以及挤压与激励机制生成细粒度静态场景图像。

8.根据权利要求6所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，所述步骤4中，通过两个判别器提高粗粒度结果与细粒度结果的真实性，判别器1采用Patch GAN，判别器2采用SN-PatchGAN，判别器判断每个图像块是否为真实数据。

9.根据权利要求6所述的基于条件生成对抗网络的动态到静态场景转换方法，其特征在于，所述步骤4中，由粗到细的串级两阶段网络的生成器损失函数，以及两种判别器的判别损失，根据判别损失和生成损失计算梯度，并通过反向传播算法优化生成网络与判别网络参数，直到训练达到最大迭代次数。