CN116051360A

CN116051360A - 基于残差的级联渐进优化的多模态跨视角图像生成方法

Info

Publication number: CN116051360A
Application number: CN202111261792.4A
Authority: CN
Inventors: 陈涛; 章伟希; 范佳媛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2023-05-02

Abstract

本发明提供了一种基于残差的级联渐进优化的多模态跨视角图像生成方法，用于对源视角图像进行视角转换，包括以下步骤：步骤1，获取源视角图像的真实目标视角图像，构建变分自编码器提取真实目标视角图像的第一隐编码；步骤2，使用对抗生成网络生成粗糙目标视角图像；步骤3，构建多级级联的残差优化网络优化粗糙目标视角图像，得到精细目标视角图像；步骤4，通过变分自编码器提取精细目标视角图像的第二隐编码并与第一隐编码计算重构损失；步骤5，构建整体损失函数；步骤6，训练对抗生成网络后对于需进行视角转换的源视角图像，对抗生成网络随机采样第二隐编码生成多模态的粗糙目标视角图像，并经过多级级联的残差优化网络进行图像质量优化。

Description

基于残差的级联渐进优化的多模态跨视角图像生成方法

技术领域

本发明属于计算机图像生成技术领域，具体涉及一种基于残差的级联渐进优化的多模态跨视角图像生成方法。

背景技术

跨视角图像生成是一个预测当前场景从另一个视角观测的图像结果的任务，其作为计算机视觉中的一个重要算法，在无人机检测、地貌估计等众多领域有广泛的应用空间。随着无人机、遥感卫星等技术的进步，已有一些室外场景的大视角跨度的配对图像数据集出现，如何通过算法设计实现一个视图预测另一个视图的任务已经成为目前的主要问题。近年来对抗生成网络的出现和技术进步，使得机器生成图像成为了可能。因此，如何利用生成对抗网络来实现跨视角图像生成，受到了越来越多的关注。

在跨视角图像生成任务中，由于不同视角之间存在遮挡、视野范围不同等问题，即使是人类也很难推测另一个视角中可能出现哪些新的物体。文献(T.Zhou,S.Tulsiani,W.Sun,J.Malik,and A.A.Efros,“View synthesis by appearance flow,”in ECCV,2016,pp.286–301.)采用了一种光流结合对抗训练的方法，来推测简单场景或单个物体的小角度变换后的视图。而针对大视角跨度(如遥控卫星视角到地面视角)的跨视角图像生成算法仍存在生成效果差和生成模式单一的问题。文献(Max Jaderberg,Karen Simonyan,AndrewZisserman,et al.,“Spatial transformer networks,”in NIPS,2015,pp.2017–2025.)提出了一种基于可学习仿射变换的方法实现视图的仿射变换，而当视角发生极大的变化，该方法难以拟合视图中的景深变化，更难以生成此前被遮挡的新物体或新区域。

文献(K.Regmi and A.Borji,“Cross-view image synthesis usingconditional gans,”in CVPR,2018,pp.3501–3510.)提出了两种遥感-地面视角的跨视角生成算法，主要通过级联或并联一个语义估计网络来约束生成图像的语义分布。然而该方法生成的效果在语义分布上与真实分布情况仍有较大差距，进而导致生成图像的整体质量的降低，且生成模式单一。

文献(Tang,D.Xu,N.Sebe,Y.Wang,J.J.Corso,and Y.Yan,“Multi-channelattention selection GAN with cascaded semantic guidance for cross-view imagetranslation,”in CVPR,2019,pp.2417–2426.)提出了一种语义引导的跨视角图像生成模型，通过引入语义分割图作为引导条件，并采用一种多通道注意力选择的粗糙到精细生成策略，从而提高生成图像的质量。然而该方法仍然没有考虑到生成模式单一的问题，难以模拟多变的室外场景风格(如天气、光照等变化因素)，且其图像质量优化程度有限。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于残差的级联渐进优化的多模态跨视角图像生成方法。

本发明提供了一种基于残差的级联渐进优化的多模态跨视角图像生成方法，用于对源视角图像进行视角转换得到多模态的目标视角图像，具有这样的特征，包括以下步骤：

步骤1，获取源视角图像的真实目标视角图像，构建基于KL-散度约束的变分自编码器，通过变分自编码器将真实目标视角图像映射到低维向量，得到符合高斯分布的第一隐编码；

步骤2，使用基于U型网络的对抗生成网络，根据源视角图像、目标视角语义分割图以及第一隐编码生成粗糙目标视角图像；

步骤3，构建多个残差优化网络，并将多个残差优化网络进行级联来对粗糙目标视角图像进行渐进优化，得到精细目标视角图像；

步骤4，构建基于重构损失的变分自编码器对精细目标视角图像提取第二隐编码，并将第二隐编码与第一隐编码进行重构损失计算后将重构后的第二隐编码存储至隐编码空间；

步骤5，构建整体损失函数，包括用于多级级联的残差优化网络的对抗损失函数和重构损失函数以及用于变分自编码器的KL-散度约束和重构损失函数；

步骤6，对对抗生成网络进行训练，训练完成后，对于一个需进行视角转换的源视角图像，对抗生成网络从隐编码空间中随机采样高斯分布的第二隐编码，通过第二隐编码、源视角图像以及目标视角语义分割图生成多模态的粗糙目标视角图像，再经过多级级联的残差优化网络进行图像质量的渐进优化后得到多模态的精细目标视角图像。

在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中，还可以具有这样的特征：其中，步骤1中，变分自编码器使用残差卷积神经网络构成，将输入的真实目标视角图像进行多次下采样至M维向量，并与随机采样的M维高斯分布向量计算KL-散度，计算公式如下：

公式(1)和公式(2)中，E()为变分自编码器，N(0，1)为标准高斯分布，p(z)和q(z)分别为标准高斯分布和网络拟合的隐编码概率分布。

在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中，还可以具有这样的特征：其中，步骤2中，对抗生成网络的输入层为六通道，并通过双线性插值将目标视角语义分割图与源视角图像进行尺度统一。

在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中，还可以具有这样的特征：其中，步骤3中，每个残差优化网络均包括一个四层卷积神经网络构成的残差估计网络和一个U型图像优化网络，每级残差优化网络均通过残差估计网络对输入图像进行残差估计得到残差图，再对输入图像与残差图进行加权求和后通过U型图像优化网络进行图像优化，优化后的图像作为下一级残差优化网络的输入图像，在经过多级残差优化网络优化后得到精细目标视角图像，每级残差优化网络的计算公式如下：

公式(3)中，R_i为第i级的残差优化网络，I_a为输入的粗糙目标视角图像，S_pano为目标视角语义分割图，I_res为本级的残差估计网络估计得到的残差图，

和

分别为前一级的残差优化网络优化后的图像和本级的残差优化网络优化后的图像。

在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中，还可以具有这样的特征：其中，步骤1与步骤4中的变分自编码器参数共享。

在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中，还可以具有这样的特征：其中，步骤5中，在多级级联的残差优化网络中，使用对抗损失函数以及重构损失函数作为生成图像以及残差图的目标函数来对所有生成图像进行图像级约束，

在变分自编码器的优化中，使用重构损失函数和KL-散度约束来构造隐编码的目标函数，

整体损失函数的公式如下：

公式(4)为残差优化网络的重构损失函数，

公式(5)为变分自编码器的重构损失函数，

公式(6)为粗糙目标视角图像的对抗损失函数，

公式(7)为多级级联的残差优化网络中各级优化图像的对抗损失函数，

公式(8)为多级级联的残差优化网络中残差图的对抗损失函数，

公式(4)-公式(8)中，z_r为步骤4中重构后的第二隐编码，D_s和D_r分别为针对图像和残差图的判别器，λ_i为不同损失项的权重系数。

在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中，还可以具有这样的特征：其中，步骤6中，训练对抗生成网络时，通过反向传播的算法，交替优化对抗生成网络中的生成器和判别器中的参数。

发明的作用与效果

根据本发明所涉及的一种基于残差的级联渐进优化的多模态跨视角图像生成方法，通过联合变分自编码器与对抗生成网络来跨视角生成多模态的目标视角图像，能够在实现跨视角图像生成的同时，通过随机采样高斯分布的隐编码引入多模态的生成效果，从而模拟不同光照、天气条件下的目标视角图像；并且本发明还通过多级级联的残差优化网络对生成的粗糙目标视角图像进行优化，能够有效地渐进式改善图像生成效果，降低生成图像中存在的失真，并且通过可视化残差图可以更有效地解释图像质量改进的过程。

附图说明

图1是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的系统构成图；

图2是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的流程图；

图3是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的处理过程示意图。

具体实施方式

为了使本发明实现的技术手段与功效易于明白了解，以下结合实施例及附图对本发明作具体阐述。

<实施例>

图1是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的系统构成图。

如图1所示，本实施例中，基于残差的级联渐进优化的多模态跨视角图像生成方法采用的系统100中包括媒体数据101，计算设备110和展示设备191。媒体数据101是源视角图像，可以从遥感卫星、无人机等中提取。

计算设备110是处理媒体数据101的计算设备，主要包括计算机处理器120，内存130。处理器120是一个用于计算设备110的硬件处理器，如中央处理器CPU，图形计算处理器(Graphical Process Unit)。内存130是一个非易失的存储设备，用于储存计算机代码用于处理器120的计算过程，同时内存130也会存储各类中间数据、及参数。内存130包括跨视角图像数据集135机器相关数据、可执行代码140。可执行代码140包括一至多个软件模块，用于执行计算机处理器120的计算。如图1所示，可执行代码140包括变分自编码器141、对抗生成网络143以及基于残差的级联图像优化模块147。

变分自编码器141用于从目标视角图像中提取随机信息，即将目标视角图像映射到高斯分布的隐编码。

对抗生成网路143用于将输入源视角图像、目标视角语义分割图以及隐编码生成多模态的目标视角图像，即粗粒度的目标视角图像生成。

基于残差的级联图像优化模块147用于对粗粒度目标视角图像进行残差估计，并进一步进行图像质量改进，即渐进式的图像质量优化。

展示设备191是适合播放媒体数据101和显示计算设备101输出的预测结果的设备，可以是电脑、电视或者移动设备。

图2是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的流程图，图3是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的处理过程示意图。

如图2和图3所示，本实施例的一种基于残差的级联渐进优化的多模态跨视角图像生成方法，用于对源视角图像进行视角转换得到多模态的目标视角图像，包括以下步骤：

步骤1，获取源视角图像的真实目标视角图像，构建基于KL-散度约束的变分自编码器，通过变分自编码器将真实目标视角图像映射到低维向量，得到符合高斯分布的第一隐编码。

步骤1中，变分自编码器使用残差卷积神经网络构成，将输入的真实目标视角图像进行多次下采样至M维向量，并与随机采样的M维高斯分布向量计算KL-散度，计算公式如下：

本实施例中，基于残差卷积神经网络构建将图像映射到低维向量的变分自编码器的主干模型，具体采用了四个残差卷积神经网络构成，每个残差卷积神经网络之间使用最大池化层降低其分辨率。

步骤2，使用基于U型网络的对抗生成网络，根据源视角图像、目标视角语义分割图以及第一隐编码生成粗糙目标视角图像。

步骤2中，对抗生成网络的输入层为六通道，并通过双线性插值将目标视角语义分割图与源视角图像进行尺度统一。

本实施例中，通过同时输入源视角图像、目标视角语义分割图及隐编码，将源视角图像与目标视角语义分割图进行尺度统一，在通道维度进行拼接得到6维的输入，将其输入给生成器。除此之外，将隐编码进行尺度变换得到与图像同尺度的张量，与生成器的浅层特征进行通道维度的拼接，从而在生成过程中嵌入隐编码的随机性。

步骤3，构建多个残差优化网络，并将多个残差优化网络进行级联来对粗糙目标视角图像进行渐进优化，得到精细目标视角图像。

步骤3中，每个残差优化网络均包括一个四层卷积神经网络构成的残差估计网络和一个U型图像优化网络，

每级残差优化网络均通过残差估计网络对输入图像进行残差估计得到残差图，再对输入图像与残差图进行加权求和后通过U型图像优化网络进行图像优化，约束图像像素值使其落在合理范围之内。优化后的图像作为下一级残差优化网络的输入图像，实现渐进式的优化，在经过多级残差优化网络优化后得到精细目标视角图像，每级残差优化网络的计算公式如下：

和

本实施例中，后级残差优化网络均用前级残差优化网络的参数进行初始化。每增加一级残差优化网络，固定前级已训练网络的参数，仅训练最后一级残差优化网络。

步骤4，构建基于重构损失的变分自编码器对精细目标视角图像提取第二隐编码，并将第二隐编码与第一隐编码进行重构损失计算后将重构后的第二隐编码存储至隐编码空间。

步骤1与步骤4中的变分自编码器参数共享。

本实施例中，通过将输出的第二隐编码与步骤1中输入端的第一隐编码进行重构损失的计算，使得生成图像能够编码足够的随机信息。

步骤5，构建整体损失函数，包括用于多级级联的残差优化网络的对抗损失函数和重构损失函数以及用于变分自编码器的KL-散度约束和重构损失函数。

步骤5中，在多级级联的残差优化网络中，使用对抗损失函数以及重构损失函数作为生成图像以及残差图的目标函数来对所有生成图像进行图像级约束，

整体损失函数的公式如下：

公式(4)为残差优化网络的重构损失函数，

公式(5)为变分自编码器的重构损失函数，

公式(6)为粗糙目标视角图像的对抗损失函数，

步骤6中，训练对抗生成网络时，通过反向传播的算法，交替优化对抗生成网络中的生成器和判别器中的参数。

本实施例中，采用ADAM优化器对对抗生成网络进行训练，初始学习率lr＝0.0002，每10轮衰减0.05。网络一共训练大约50轮直至收敛。我们采用交替训练生成器和判别器的方式进行训练，即每批数据先固定生成器参数，更新判别器参数，然后固定判别器参数，更新生成器参数。

具体采用CVUSA数据集和Dayton数据集中的训练数据训练，并在测试数据集中进行测试，训练和测试数据索引与文献(Tang,D.Xu,N.Sebe,Y.Wang,J.J.Corso,and Y.Yan,“Multi-channel attention selection GAN with cascaded semantic guidance forcross-view image translation,”in CVPR,2019,pp.2417–2426.)中一致。并对生成图像采用FID、IS、PSNR、SSIM、SD等指标进行评估，在CVUSA数据集中上述指标分别达到35.02、2.8907、21.2476、0.4879、18.5000。在Dayton数据集中上述指标分别达到40.32、2.6443、22.5510、0.5626、19.6617。

实施例的作用与效果

根据本实施例所涉及的一种基于残差的级联渐进优化的多模态跨视角图像生成方法，通过联合变分自编码器与对抗生成网络来跨视角生成多模态的目标视角图像，能够在实现跨视角图像生成的同时，通过随机采样高斯分布的隐编码引入多模态的生成效果，从而模拟不同光照、天气条件下的目标视角图像；并且本实施例还通过多级级联的残差优化网络对生成的粗糙目标视角图像进行优化，能够有效地渐进式改善图像生成效果，降低生成图像中存在的失真，并且通过可视化残差图可以更有效地解释图像质量改进的过程。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种基于残差的级联渐进优化的多模态跨视角图像生成方法，用于对源视角图像进行视角转换得到多模态的目标视角图像，其特征在于，包括以下步骤：

步骤1，获取所述源视角图像的真实目标视角图像，构建基于KL-散度约束的变分自编码器，通过所述变分自编码器将所述真实目标视角图像映射到低维向量，得到符合高斯分布的第一隐编码；

步骤2，使用基于U型网络的对抗生成网络，根据所述源视角图像、目标视角语义分割图以及所述第一隐编码生成粗糙目标视角图像；

步骤3，构建多个残差优化网络，并将多个所述残差优化网络进行级联来对所述粗糙目标视角图像进行渐进优化，得到精细目标视角图像；

步骤4，构建基于重构损失的所述变分自编码器对所述精细目标视角图像提取第二隐编码，并将所述第二隐编码与所述第一隐编码进行重构损失计算后将重构后的所述第二隐编码存储至隐编码空间；

步骤5，构建整体损失函数，包括用于多级级联的所述残差优化网络的对抗损失函数和重构损失函数以及用于所述变分自编码器的KL-散度约束和重构损失函数；

步骤6，对所述对抗生成网络进行训练，训练完成后，对于一个需进行视角转换的所述源视角图像，所述对抗生成网络从所述隐编码空间中随机采样高斯分布的所述第二隐编码，通过所述第二隐编码、所述源视角图像以及所述目标视角语义分割图生成多模态的所述粗糙目标视角图像，再经过多级级联的所述残差优化网络进行图像质量的渐进优化后得到多模态的所述精细目标视角图像。

2.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法，其特征在于：

其中，所述步骤1中，所述变分自编码器使用残差卷积神经网络构成，将输入的所述真实目标视角图像进行多次下采样至M维向量，并与随机采样的M维高斯分布向量计算KL-散度，计算公式如下：