CN116051360A - 基于残差的级联渐进优化的多模态跨视角图像生成方法 - Google Patents
基于残差的级联渐进优化的多模态跨视角图像生成方法 Download PDFInfo
- Publication number
- CN116051360A CN116051360A CN202111261792.4A CN202111261792A CN116051360A CN 116051360 A CN116051360 A CN 116051360A CN 202111261792 A CN202111261792 A CN 202111261792A CN 116051360 A CN116051360 A CN 116051360A
- Authority
- CN
- China
- Prior art keywords
- image
- residual
- network
- view image
- optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000750 progressive effect Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 47
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008485 antagonism Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于残差的级联渐进优化的多模态跨视角图像生成方法,用于对源视角图像进行视角转换,包括以下步骤:步骤1,获取源视角图像的真实目标视角图像,构建变分自编码器提取真实目标视角图像的第一隐编码;步骤2,使用对抗生成网络生成粗糙目标视角图像;步骤3,构建多级级联的残差优化网络优化粗糙目标视角图像,得到精细目标视角图像;步骤4,通过变分自编码器提取精细目标视角图像的第二隐编码并与第一隐编码计算重构损失;步骤5,构建整体损失函数;步骤6,训练对抗生成网络后对于需进行视角转换的源视角图像,对抗生成网络随机采样第二隐编码生成多模态的粗糙目标视角图像,并经过多级级联的残差优化网络进行图像质量优化。
Description
技术领域
本发明属于计算机图像生成技术领域,具体涉及一种基于残差的级联渐进优化的多模态跨视角图像生成方法。
背景技术
跨视角图像生成是一个预测当前场景从另一个视角观测的图像结果的任务,其作为计算机视觉中的一个重要算法,在无人机检测、地貌估计等众多领域有广泛的应用空间。随着无人机、遥感卫星等技术的进步,已有一些室外场景的大视角跨度的配对图像数据集出现,如何通过算法设计实现一个视图预测另一个视图的任务已经成为目前的主要问题。近年来对抗生成网络的出现和技术进步,使得机器生成图像成为了可能。因此,如何利用生成对抗网络来实现跨视角图像生成,受到了越来越多的关注。
在跨视角图像生成任务中,由于不同视角之间存在遮挡、视野范围不同等问题,即使是人类也很难推测另一个视角中可能出现哪些新的物体。文献(T.Zhou,S.Tulsiani,W.Sun,J.Malik,and A.A.Efros,“View synthesis by appearance flow,”in ECCV,2016,pp.286–301.)采用了一种光流结合对抗训练的方法,来推测简单场景或单个物体的小角度变换后的视图。而针对大视角跨度(如遥控卫星视角到地面视角)的跨视角图像生成算法仍存在生成效果差和生成模式单一的问题。文献(Max Jaderberg,Karen Simonyan,AndrewZisserman,et al.,“Spatial transformer networks,”in NIPS,2015,pp.2017–2025.)提出了一种基于可学习仿射变换的方法实现视图的仿射变换,而当视角发生极大的变化,该方法难以拟合视图中的景深变化,更难以生成此前被遮挡的新物体或新区域。
文献(K.Regmi and A.Borji,“Cross-view image synthesis usingconditional gans,”in CVPR,2018,pp.3501–3510.)提出了两种遥感-地面视角的跨视角生成算法,主要通过级联或并联一个语义估计网络来约束生成图像的语义分布。然而该方法生成的效果在语义分布上与真实分布情况仍有较大差距,进而导致生成图像的整体质量的降低,且生成模式单一。
文献(Tang,D.Xu,N.Sebe,Y.Wang,J.J.Corso,and Y.Yan,“Multi-channelattention selection GAN with cascaded semantic guidance for cross-view imagetranslation,”in CVPR,2019,pp.2417–2426.)提出了一种语义引导的跨视角图像生成模型,通过引入语义分割图作为引导条件,并采用一种多通道注意力选择的粗糙到精细生成策略,从而提高生成图像的质量。然而该方法仍然没有考虑到生成模式单一的问题,难以模拟多变的室外场景风格(如天气、光照等变化因素),且其图像质量优化程度有限。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于残差的级联渐进优化的多模态跨视角图像生成方法。
本发明提供了一种基于残差的级联渐进优化的多模态跨视角图像生成方法,用于对源视角图像进行视角转换得到多模态的目标视角图像,具有这样的特征,包括以下步骤:
步骤1,获取源视角图像的真实目标视角图像,构建基于KL-散度约束的变分自编码器,通过变分自编码器将真实目标视角图像映射到低维向量,得到符合高斯分布的第一隐编码;
步骤2,使用基于U型网络的对抗生成网络,根据源视角图像、目标视角语义分割图以及第一隐编码生成粗糙目标视角图像;
步骤3,构建多个残差优化网络,并将多个残差优化网络进行级联来对粗糙目标视角图像进行渐进优化,得到精细目标视角图像;
步骤4,构建基于重构损失的变分自编码器对精细目标视角图像提取第二隐编码,并将第二隐编码与第一隐编码进行重构损失计算后将重构后的第二隐编码存储至隐编码空间;
步骤5,构建整体损失函数,包括用于多级级联的残差优化网络的对抗损失函数和重构损失函数以及用于变分自编码器的KL-散度约束和重构损失函数;
步骤6,对对抗生成网络进行训练,训练完成后,对于一个需进行视角转换的源视角图像,对抗生成网络从隐编码空间中随机采样高斯分布的第二隐编码,通过第二隐编码、源视角图像以及目标视角语义分割图生成多模态的粗糙目标视角图像,再经过多级级联的残差优化网络进行图像质量的渐进优化后得到多模态的精细目标视角图像。
在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤1中,变分自编码器使用残差卷积神经网络构成,将输入的真实目标视角图像进行多次下采样至M维向量,并与随机采样的M维高斯分布向量计算KL-散度,计算公式如下:
公式(1)和公式(2)中,E()为变分自编码器,N(0,1)为标准高斯分布,p(z)和q(z)分别为标准高斯分布和网络拟合的隐编码概率分布。
在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤2中,对抗生成网络的输入层为六通道,并通过双线性插值将目标视角语义分割图与源视角图像进行尺度统一。
在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤3中,每个残差优化网络均包括一个四层卷积神经网络构成的残差估计网络和一个U型图像优化网络,每级残差优化网络均通过残差估计网络对输入图像进行残差估计得到残差图,再对输入图像与残差图进行加权求和后通过U型图像优化网络进行图像优化,优化后的图像作为下一级残差优化网络的输入图像,在经过多级残差优化网络优化后得到精细目标视角图像,每级残差优化网络的计算公式如下:
公式(3)中,Ri为第i级的残差优化网络,Ia为输入的粗糙目标视角图像,Spano为目标视角语义分割图,Ires为本级的残差估计网络估计得到的残差图,和分别为前一级的残差优化网络优化后的图像和本级的残差优化网络优化后的图像。
在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤1与步骤4中的变分自编码器参数共享。
在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤5中,在多级级联的残差优化网络中,使用对抗损失函数以及重构损失函数作为生成图像以及残差图的目标函数来对所有生成图像进行图像级约束,
在变分自编码器的优化中,使用重构损失函数和KL-散度约束来构造隐编码的目标函数,
整体损失函数的公式如下:
公式(4)为残差优化网络的重构损失函数,
公式(5)为变分自编码器的重构损失函数,
公式(6)为粗糙目标视角图像的对抗损失函数,
公式(7)为多级级联的残差优化网络中各级优化图像的对抗损失函数,
公式(8)为多级级联的残差优化网络中残差图的对抗损失函数,
公式(4)-公式(8)中,zr为步骤4中重构后的第二隐编码,Ds和Dr分别为针对图像和残差图的判别器,λi为不同损失项的权重系数。
在本发明提供的基于残差的级联渐进优化的多模态跨视角图像生成方法中,还可以具有这样的特征:其中,步骤6中,训练对抗生成网络时,通过反向传播的算法,交替优化对抗生成网络中的生成器和判别器中的参数。
发明的作用与效果
根据本发明所涉及的一种基于残差的级联渐进优化的多模态跨视角图像生成方法,通过联合变分自编码器与对抗生成网络来跨视角生成多模态的目标视角图像,能够在实现跨视角图像生成的同时,通过随机采样高斯分布的隐编码引入多模态的生成效果,从而模拟不同光照、天气条件下的目标视角图像;并且本发明还通过多级级联的残差优化网络对生成的粗糙目标视角图像进行优化,能够有效地渐进式改善图像生成效果,降低生成图像中存在的失真,并且通过可视化残差图可以更有效地解释图像质量改进的过程。
附图说明
图1是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的系统构成图;
图2是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的流程图;
图3是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的处理过程示意图。
具体实施方式
为了使本发明实现的技术手段与功效易于明白了解,以下结合实施例及附图对本发明作具体阐述。
<实施例>
图1是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的系统构成图。
如图1所示,本实施例中,基于残差的级联渐进优化的多模态跨视角图像生成方法采用的系统100中包括媒体数据101,计算设备110和展示设备191。媒体数据101是源视角图像,可以从遥感卫星、无人机等中提取。
计算设备110是处理媒体数据101的计算设备,主要包括计算机处理器120,内存130。处理器120是一个用于计算设备110的硬件处理器,如中央处理器CPU,图形计算处理器(Graphical Process Unit)。内存130是一个非易失的存储设备,用于储存计算机代码用于处理器120的计算过程,同时内存130也会存储各类中间数据、及参数。内存130包括跨视角图像数据集135机器相关数据、可执行代码140。可执行代码140包括一至多个软件模块,用于执行计算机处理器120的计算。如图1所示,可执行代码140包括变分自编码器141、对抗生成网络143以及基于残差的级联图像优化模块147。
变分自编码器141用于从目标视角图像中提取随机信息,即将目标视角图像映射到高斯分布的隐编码。
对抗生成网路143用于将输入源视角图像、目标视角语义分割图以及隐编码生成多模态的目标视角图像,即粗粒度的目标视角图像生成。
基于残差的级联图像优化模块147用于对粗粒度目标视角图像进行残差估计,并进一步进行图像质量改进,即渐进式的图像质量优化。
展示设备191是适合播放媒体数据101和显示计算设备101输出的预测结果的设备,可以是电脑、电视或者移动设备。
图2是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的流程图,图3是本发明的实施例中基于残差的级联渐进优化的多模态跨视角图像生成方法的处理过程示意图。
如图2和图3所示,本实施例的一种基于残差的级联渐进优化的多模态跨视角图像生成方法,用于对源视角图像进行视角转换得到多模态的目标视角图像,包括以下步骤:
步骤1,获取源视角图像的真实目标视角图像,构建基于KL-散度约束的变分自编码器,通过变分自编码器将真实目标视角图像映射到低维向量,得到符合高斯分布的第一隐编码。
步骤1中,变分自编码器使用残差卷积神经网络构成,将输入的真实目标视角图像进行多次下采样至M维向量,并与随机采样的M维高斯分布向量计算KL-散度,计算公式如下:
公式(1)和公式(2)中,E()为变分自编码器,N(0,1)为标准高斯分布,p(z)和q(z)分别为标准高斯分布和网络拟合的隐编码概率分布。
本实施例中,基于残差卷积神经网络构建将图像映射到低维向量的变分自编码器的主干模型,具体采用了四个残差卷积神经网络构成,每个残差卷积神经网络之间使用最大池化层降低其分辨率。
步骤2,使用基于U型网络的对抗生成网络,根据源视角图像、目标视角语义分割图以及第一隐编码生成粗糙目标视角图像。
步骤2中,对抗生成网络的输入层为六通道,并通过双线性插值将目标视角语义分割图与源视角图像进行尺度统一。
本实施例中,通过同时输入源视角图像、目标视角语义分割图及隐编码,将源视角图像与目标视角语义分割图进行尺度统一,在通道维度进行拼接得到6维的输入,将其输入给生成器。除此之外,将隐编码进行尺度变换得到与图像同尺度的张量,与生成器的浅层特征进行通道维度的拼接,从而在生成过程中嵌入隐编码的随机性。
步骤3,构建多个残差优化网络,并将多个残差优化网络进行级联来对粗糙目标视角图像进行渐进优化,得到精细目标视角图像。
步骤3中,每个残差优化网络均包括一个四层卷积神经网络构成的残差估计网络和一个U型图像优化网络,
每级残差优化网络均通过残差估计网络对输入图像进行残差估计得到残差图,再对输入图像与残差图进行加权求和后通过U型图像优化网络进行图像优化,约束图像像素值使其落在合理范围之内。优化后的图像作为下一级残差优化网络的输入图像,实现渐进式的优化,在经过多级残差优化网络优化后得到精细目标视角图像,每级残差优化网络的计算公式如下:
公式(3)中,Ri为第i级的残差优化网络,Ia为输入的粗糙目标视角图像,Spano为目标视角语义分割图,Ires为本级的残差估计网络估计得到的残差图,和分别为前一级的残差优化网络优化后的图像和本级的残差优化网络优化后的图像。
本实施例中,后级残差优化网络均用前级残差优化网络的参数进行初始化。每增加一级残差优化网络,固定前级已训练网络的参数,仅训练最后一级残差优化网络。
步骤4,构建基于重构损失的变分自编码器对精细目标视角图像提取第二隐编码,并将第二隐编码与第一隐编码进行重构损失计算后将重构后的第二隐编码存储至隐编码空间。
步骤1与步骤4中的变分自编码器参数共享。
本实施例中,通过将输出的第二隐编码与步骤1中输入端的第一隐编码进行重构损失的计算,使得生成图像能够编码足够的随机信息。
步骤5,构建整体损失函数,包括用于多级级联的残差优化网络的对抗损失函数和重构损失函数以及用于变分自编码器的KL-散度约束和重构损失函数。
步骤5中,在多级级联的残差优化网络中,使用对抗损失函数以及重构损失函数作为生成图像以及残差图的目标函数来对所有生成图像进行图像级约束,
在变分自编码器的优化中,使用重构损失函数和KL-散度约束来构造隐编码的目标函数,
整体损失函数的公式如下:
公式(4)为残差优化网络的重构损失函数,
公式(5)为变分自编码器的重构损失函数,
公式(6)为粗糙目标视角图像的对抗损失函数,
公式(7)为多级级联的残差优化网络中各级优化图像的对抗损失函数,
公式(8)为多级级联的残差优化网络中残差图的对抗损失函数,
公式(4)-公式(8)中,zr为步骤4中重构后的第二隐编码,Ds和Dr分别为针对图像和残差图的判别器,λi为不同损失项的权重系数。
步骤6,对对抗生成网络进行训练,训练完成后,对于一个需进行视角转换的源视角图像,对抗生成网络从隐编码空间中随机采样高斯分布的第二隐编码,通过第二隐编码、源视角图像以及目标视角语义分割图生成多模态的粗糙目标视角图像,再经过多级级联的残差优化网络进行图像质量的渐进优化后得到多模态的精细目标视角图像。
步骤6中,训练对抗生成网络时,通过反向传播的算法,交替优化对抗生成网络中的生成器和判别器中的参数。
本实施例中,采用ADAM优化器对对抗生成网络进行训练,初始学习率lr=0.0002,每10轮衰减0.05。网络一共训练大约50轮直至收敛。我们采用交替训练生成器和判别器的方式进行训练,即每批数据先固定生成器参数,更新判别器参数,然后固定判别器参数,更新生成器参数。
具体采用CVUSA数据集和Dayton数据集中的训练数据训练,并在测试数据集中进行测试,训练和测试数据索引与文献(Tang,D.Xu,N.Sebe,Y.Wang,J.J.Corso,and Y.Yan,“Multi-channel attention selection GAN with cascaded semantic guidance forcross-view image translation,”in CVPR,2019,pp.2417–2426.)中一致。并对生成图像采用FID、IS、PSNR、SSIM、SD等指标进行评估,在CVUSA数据集中上述指标分别达到35.02、2.8907、21.2476、0.4879、18.5000。在Dayton数据集中上述指标分别达到40.32、2.6443、22.5510、0.5626、19.6617。
实施例的作用与效果
根据本实施例所涉及的一种基于残差的级联渐进优化的多模态跨视角图像生成方法,通过联合变分自编码器与对抗生成网络来跨视角生成多模态的目标视角图像,能够在实现跨视角图像生成的同时,通过随机采样高斯分布的隐编码引入多模态的生成效果,从而模拟不同光照、天气条件下的目标视角图像;并且本实施例还通过多级级联的残差优化网络对生成的粗糙目标视角图像进行优化,能够有效地渐进式改善图像生成效果,降低生成图像中存在的失真,并且通过可视化残差图可以更有效地解释图像质量改进的过程。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。
Claims (7)
1.一种基于残差的级联渐进优化的多模态跨视角图像生成方法,用于对源视角图像进行视角转换得到多模态的目标视角图像,其特征在于,包括以下步骤:
步骤1,获取所述源视角图像的真实目标视角图像,构建基于KL-散度约束的变分自编码器,通过所述变分自编码器将所述真实目标视角图像映射到低维向量,得到符合高斯分布的第一隐编码;
步骤2,使用基于U型网络的对抗生成网络,根据所述源视角图像、目标视角语义分割图以及所述第一隐编码生成粗糙目标视角图像;
步骤3,构建多个残差优化网络,并将多个所述残差优化网络进行级联来对所述粗糙目标视角图像进行渐进优化,得到精细目标视角图像;
步骤4,构建基于重构损失的所述变分自编码器对所述精细目标视角图像提取第二隐编码,并将所述第二隐编码与所述第一隐编码进行重构损失计算后将重构后的所述第二隐编码存储至隐编码空间;
步骤5,构建整体损失函数,包括用于多级级联的所述残差优化网络的对抗损失函数和重构损失函数以及用于所述变分自编码器的KL-散度约束和重构损失函数;
步骤6,对所述对抗生成网络进行训练,训练完成后,对于一个需进行视角转换的所述源视角图像,所述对抗生成网络从所述隐编码空间中随机采样高斯分布的所述第二隐编码,通过所述第二隐编码、所述源视角图像以及所述目标视角语义分割图生成多模态的所述粗糙目标视角图像,再经过多级级联的所述残差优化网络进行图像质量的渐进优化后得到多模态的所述精细目标视角图像。
3.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:
其中,所述步骤2中,所述对抗生成网络的输入层为六通道,并通过双线性插值将所述目标视角语义分割图与所述源视角图像进行尺度统一。
4.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:
其中,所述步骤3中,每个所述残差优化网络均包括一个四层卷积神经网络构成的残差估计网络和一个U型图像优化网络,
每级所述残差优化网络均通过所述残差估计网络对输入图像进行残差估计得到残差图,再对输入图像与所述残差图进行加权求和后通过所述U型图像优化网络进行图像优化,优化后的图像作为下一级所述残差优化网络的输入图像,在经过多级所述残差优化网络优化后得到所述精细目标视角图像,每级所述残差优化网络的计算公式如下:
5.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:
其中,所述步骤1与所述步骤4中的所述变分自编码器参数共享。
6.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:
其中,所述步骤5中,在多级级联的所述残差优化网络中,使用所述对抗损失函数以及所述重构损失函数作为生成图像以及残差图的目标函数来对所有生成图像进行图像级约束,
在所述变分自编码器的优化中,使用所述重构损失函数和所述KL-散度约束来构造所述隐编码的目标函数,
所述整体损失函数的公式如下:
公式(4)为所述残差优化网络的重构损失函数,
公式(5)为所述变分自编码器的重构损失函数,
公式(6)为所述粗糙目标视角图像的所述对抗损失函数,
公式(7)为多级级联的所述残差优化网络中各级优化图像的对抗损失函数,
公式(8)为多级级联的所述残差优化网络中残差图的对抗损失函数,
公式(4)-公式(8)中,zr为步骤4中重构后的所述第二隐编码,Ds和Dr分别为针对图像和残差图的判别器,λi为不同损失项的权重系数。
7.根据权利要求1所述的基于残差的级联渐进优化的多模态跨视角图像生成方法,其特征在于:
其中,所述步骤6中,训练所述对抗生成网络时,通过反向传播的算法,交替优化所述对抗生成网络中的生成器和判别器中的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111261792.4A CN116051360A (zh) | 2021-10-28 | 2021-10-28 | 基于残差的级联渐进优化的多模态跨视角图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111261792.4A CN116051360A (zh) | 2021-10-28 | 2021-10-28 | 基于残差的级联渐进优化的多模态跨视角图像生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116051360A true CN116051360A (zh) | 2023-05-02 |
Family
ID=86124143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111261792.4A Pending CN116051360A (zh) | 2021-10-28 | 2021-10-28 | 基于残差的级联渐进优化的多模态跨视角图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051360A (zh) |
-
2021
- 2021-10-28 CN CN202111261792.4A patent/CN116051360A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899163B (zh) | 生成对抗网络中单图像超分辨率的有效结构保持 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN109636721B (zh) | 基于对抗学习和注意力机制的视频超分辨率方法 | |
CN111445476B (zh) | 基于多模态无监督图像内容解耦的单目深度估计方法 | |
CN113160294B (zh) | 图像场景深度的估计方法、装置、终端设备和存储介质 | |
CN109887050B (zh) | 一种基于自适应字典学习的编码孔径光谱成像方法 | |
CN112614070B (zh) | 一种基于DefogNet的单幅图像去雾方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN113870124B (zh) | 基于弱监督的双网络互激励学习阴影去除方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN113689545A (zh) | 一种2d到3d端对端的超声或ct医学影像跨模态重建方法 | |
CN115346207A (zh) | 一种基于实例结构相关性的二维图像中三维目标检测方法 | |
CN116168067A (zh) | 基于深度学习的有监督多模态光场深度估计方法 | |
CN115049739A (zh) | 一种基于边缘检测的双目视觉立体匹配方法 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN111275751A (zh) | 一种无监督绝对尺度计算方法及系统 | |
CN116993933A (zh) | 应急场景下的实景地图构建方法、装置、设备及存储介质 | |
CN116051360A (zh) | 基于残差的级联渐进优化的多模态跨视角图像生成方法 | |
CN116137043A (zh) | 一种基于卷积和Transformer的红外图像彩色化方法 | |
CN116091893A (zh) | 一种基于U-net网络的地震图像反褶积方法及系统 | |
CN114743105A (zh) | 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 | |
CN111310916B (zh) | 一种区分左右眼图片的深度系统训练方法及系统 | |
CN111008930B (zh) | 一种织物图像超分辨率重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |