CN115565039A - 基于自注意力机制的单目输入动态场景新视图合成方法 - Google Patents

基于自注意力机制的单目输入动态场景新视图合成方法 Download PDF

Info

Publication number
CN115565039A
CN115565039A CN202211142903.4A CN202211142903A CN115565039A CN 115565039 A CN115565039 A CN 115565039A CN 202211142903 A CN202211142903 A CN 202211142903A CN 115565039 A CN115565039 A CN 115565039A
Authority
CN
China
Prior art keywords
attention
sequence
self
convolution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211142903.4A
Other languages
English (en)
Inventor
孙慧强
曹治国
李星毅
鲜可
王一然
申立奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211142903.4A priority Critical patent/CN115565039A/zh
Publication of CN115565039A publication Critical patent/CN115565039A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自注意力机制的单目输入动态场景新视图合成方法,提出了一种动态场景新视图合成新范式,即利用自注意力机制表达动态场景在时间维度上的内在关联,从而利用时间全局信息来完成动态场景的新视点合成,可以得到真实可靠的新视图合成结果,同时去除了光流与场景流的约束,简化模型的训练,并降低模型的内存开销与训练时间;去除了场景流的预测以及光流信息的先验,在得到可靠的新视图合成结果的同时简化了模型的优化,同时降低了内存开销。

Description

基于自注意力机制的单目输入动态场景新视图合成方法
技术领域
本发明属于新视图合成领域,更具体地,涉及一种基于自注意力机制的单目输入动态场景新视图合成方法。
背景技术
随着计算机视觉领域的不断发展,新视图合成已经成为了计算机视觉领域的基本问题之一。它之所以受到人们的关注,是因为其应用非常的广泛。比如当今流行的VR技术,虚拟3D地图都用到了这项技术,甚至它在体育,电影等行业中也具有广阔的前景。因此近几年在学术界出现了许多有关新视图合成的研究。
动态场景的新视点合成是新视图合成领域的一个研究热点,该任务的目的是根据动态场景的输入视频或图像,利用算法重建出场景在时间与空间上的四维信息,最终可以达到在时间与视角两个维度的新视图合成效果。动态场景的新视点合成可以应用于电影制作、体育比赛回放等应用当中,它可以打破二维平面带来的观察局限性,为人们提供更加全面直观的场景展示。
目前利用神经辐射场模型完成动态场景的新视点合成算法总共可以分为两大类:基于基准模型与形变模型的算法与基于动态模型与静态模型的算法。基于基准模型与形变模型的方法主要通过基准模型生成动态场景的基准平均场景表达,而对于每一个时间点的场景则使用形变模型生成变化量从平均场景形变到每一时刻的具体场景,从而实现动态场景的表达。基于动态场景与静态场景的方法则使用静态模型重建场景中的静态部分,使用动态模型重建场景中的动态部分,最终将两个模型的结果进行融合得到最终的动态场景表达。以上的方法若想要达到很好的效果都需要预测场景流信息来表示场景的变化,并使用光流的先验来对场景流进行约束。这使得模型的优化变得复杂,同时需要过多的内存消耗。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自注意力机制的单目输入动态场景新视图合成方法,其目的在于利用自注意力机制的高性能解决动态场景的重建问题,同时去除场景流参数的预测,简化模型优化,降低内存开销
为实现上述目的,按照本发明的第一方面,提供一种基于自注意力机制的单目输入动态场景新视图合成方法,包括:
训练阶段:
以动态场景的单目视频序列作为训练集,对合成模型进行训练;其中,以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像的均方差为损失函数;所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块:
其中,所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列;所述位置编码模块用于将各特征图与与其大小相同且带有位置信息的3D张量进行相加,得到引入位置信息的特征图序列;
所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作,得到引入全局信息的特征图序列;所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列进行自注意力操作后得到的结果作为query,以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value,进行注意力操作,得到输出特征图序列;
所述视图生成模块用于将时间信息、场景空间点的坐标、视图方向输入至动态模型,将场景空间点的坐标、视图方向输入至静态模型,并将所述动态模型及静态模型的输出结果进行融合、渲染,得到RGB图像及深度图像;其中,以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息;所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取;所述视图方向从所述单目视频序列对应的相机参数中得到;
应用阶段:
将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型,将特定视图方向、及场景空间点坐标输入至所述静态模型,将所述动态模型及静态模型的输出结果进行融合、渲染,得到所述特定视图方向及特定时间下的RGB图像;其中,所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作后得到的结果进行全局池化得到的特征向量。
按照本发明的第二方面,提供了一种基于自注意力机制的单目输入动态场景新视图合成系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法,提出了一种动态场景新视图合成新范式,即利用自注意力机制表达动态场景在时间维度上的内在关联,从而利用时间全局信息来完成动态场景的新视点合成,可以得到真实可靠的新视图合成结果,同时去除了光流与场景流的约束,简化模型的训练,并降低模型的内存开销与训练时间。
2、本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法,去除了场景流的预测以及光流信息的先验,在得到可靠的新视图合成结果的同时简化了模型的优化,同时降低了内存开销。
3、本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法,利用神经辐射场模型进行新视图合成,可以得到真实合理的新时间以及新视角的新视点图像。
附图说明
图1是本发明实施例提供的基于自注意力机制的单目输入动态场景新视图合成方法的流程图;
图2是本发明实施实施例提供的特征提取网络结构图;
图3是本发明实施例提供的卷积自注意力层网络结构图;
图4是本发明实施例提供的自注意力编码器与注意力解码器的技术流程图;
图5中的(a)、(b)分别为本发明实施例提供的神经辐射场网络结构图;
图6是本发明实施例提供的三种不同形式的模型输出结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供一种基于自注意力机制的单目输入动态场景新视图合成方法,如图1所示,包括:
训练阶段:
以动态场景的单目视频序列作为训练集,对合成模型进行训练;其中,以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像(真实的RGB图像即输入的单目视频序列,真实的深度图像是将单目视频序列输入至例如midas、dpt等深度预测模型得到)的均方差为损失函数;所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块:
其中,所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列;所述位置编码模块用于将各特征图与其大小相同且带有位置信息的3D张量进行相加,得到引入位置信息的特征图序列。
具体地,所述特征提取网络用于对单目视频序列Ii中的各帧图像进行特征提取得到特征图序列Ji;i=1,2,…,N。
所述位置编码模块用于生成与Ji大小相同的3D张量Pos_Map(i)以对Ji进行位置编码,并将Ji与Pos_Map(i)相加得到引入位置信息的特征图序列Zi
对于每一个特征图Ji都生成一个大小相同的恒定3D张量Pos_Map(i)以表示特征图Ji的位置信息,将特征图序列Ji与位置编码Pos_Map(i)相加后得到引入位置信息的特征图,输入自注意力编码器。
所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作,得到引入全局信息的特征图序列;所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列(此时的插帧是整数帧,即训练阶段的插帧是整数帧)进行自注意力操作后得到的结果作为query,以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value,进行注意力操作,得到输出特征图序列。
优选地,对特征图序列进行插值操作得到插帧特征图序列。
具体地,基于比例插值法获取特征图Ji之间的插帧特征图。
所述自注意力编码器包括多个卷积模块,各卷积模块均包括卷积自注意力层,用于对Zi进行自注意力操作,得到引入全局信息的特征图
Figure BDA0003854216030000061
所述注意力解码器包括多个卷积模块,各卷积模块均包括卷积自注意力层及卷积注意力层;所述卷积注意力层用于将所述卷积自注意力层对Ji及Ji之间的插帧特征图序列
Figure BDA0003854216030000062
进行自注意力操作后输出的结果作为query,将对
Figure BDA0003854216030000063
分别经卷积层Conv_K、Conv_V进行卷积处理后得到的结果作为key和value,进行注意力操作,得到输出特征图Fi
所述视图生成模块用于将时间信息、空间点的坐标、视图方向输入至动态模型,将其空间点的坐标、视图方向输入至静态模型,并将所述动态模型及静态模型的输出结果进行融合、渲染,得到RGB图像及深度图像;其中,以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息;所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取;所述视图方向从输入单目视频序列对应的相机参数中得到。
具体地,对所述单目视频序列的每一个视图方向进行相机光线采样,在每条光线上选取空间点;将最终特征图进行平均池化后得到的特征向量作为时间信息,利用两个多层感知器对动态场景进行表达,其中,将空间点坐标、视图方向以及表征时间信息的特征向量输入至动态模型,同时将空间点坐标、视图方向输入至静态模型,以此完成场景的动态、静态信息的分开表达,最终将两者的结果进行融合,并利用体渲染技术得到最终渲染图像。
应用阶段:
将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型,将特定视图方向、及场景空间点坐标输入至所述静态模型,将所述动态模型及静态模型的输出结果进行融合、渲染,得到所述特定视图方向及特定时间下的RGB图像;其中,所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作(即以特定时间下的插帧特征图为作为query,以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value,进行注意力操作)后得到的结果进行全局池化得到的特征向量。
在实际操作中,可将特征提取网络的特征图序列与自注意力编码器的输出进行保存。在应用阶段,特征提取网络的特征图序列可用于获取特定时间下的插帧特征图,其中,特定时间下的插帧特征图为非整数帧;自注意力编码器的输出可用于获取特定时间信息。
可以理解的是,在应用阶段,仅用到了注意力解码器和静态模型、动态模型。
优选地,自注意力编码器包括多个卷积模块,各卷积模块均包括卷积自注意力层及二维卷积层;所述卷积自注意力层用于将对特征图序列Z={Z1,Z2,...,ZN}经卷积处理后得到的结果作为query图、key图、value图,计算特征图Zi的query图Qi与各特征图的key图
Figure BDA0003854216030000071
的相似度
Figure BDA0003854216030000072
Figure BDA0003854216030000073
作权重,对各特征图的value图
Figure BDA0003854216030000074
进行加权计算得到
Figure BDA0003854216030000075
所述二维卷积层对
Figure BDA0003854216030000076
进行卷积操作后,得到引入全局信息的特征图序列。
优选地,将对特征图序列Z={Z1,Z2,...,ZN}分别经卷积层Conv_Q、Conv_K、Conv_V进行卷积处理后得到的结果作为query图、key图、value图。
优选地,所述注意力解码器包括多个卷积模块,各卷积模块均包括卷积自注意力层及卷积注意力层;
所述卷积自注意力层用于对特征图序列及插帧特征图序列进行自注意力操作;
所述卷积注意力层用于将所述卷积自注意力层的输出的结果作为query图,将对所述引入全局信息的特征图序列进行卷积处理得到的结果作为key图和value图,进行注意力操作,得到输出特征图序列;
优选地,将对所述引入全局信息的特征图序列分别经卷积层Conv_K、Conv_V进行卷积处理得到的结果作为key图、value图。
优选地,所述动态模型及静态模块均基于多层感知器网络建立。
综上,本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法,通过建立并训练的合成模型实现对新视图的合成,合成模型包括特征提取网络、自注意力编码器、注意力解码器和视图生成网络,利用深度卷积网络作为骨架网络对输入图像序列进行特征提取;对于自注意力编码器,基于自注意力机制将特征提取网络得到的特征序列进行自注意力操作,得到具有全局信息的中间特征;对于注意力解码器,将特征提取网络得到的特征图进行插值操作得到中间时间特征图,并将其作为query与自注意力编码器得到的中间特征进行注意力操作,得到目标中间时刻的特征表达;对于视图生成网络,参考神经辐射场模型,使用多层感知器网络以注意力解码器得到的特征作为驱动得到目标时间点的隐式场景表达,最终通过体渲染技术得到新视点图片;利用RGB图像以及深度图的均方误差损失函数对整个模型网络进行优化。
下面以一个具体的例子对本发明提供的方法进行进一步的说明。
为实现上述目的,本发明提供了一种基于自注意力机制的单目输入动态场景新视点合成方法,包括:
(1)输入动态场景的单目视频序列,利用ResNet-50作为输入的每帧图像共享的骨架网络,对输入的图像序列进行特征提取,获得32倍降采样的特征图序列,包括:
同时提取输入图像序列特征。模型输入一个动态场景的单目视频图像序列,该图像序列帧数N可在20-30帧左右。将这些图像同时输入到一个特征提取网络,每一张原始图像得到对应的特征图。特征提取网络采用预训练的ResNet-50,对于输入图像序列
Figure BDA0003854216030000081
经过特征提取网络获得特征图序列
Figure BDA0003854216030000091
其中i∈[1,N]。
采用CNN网络对输入的视频图像序列进行特征提取,对数据集体量和特征、以及CNN的结构如下所述:
本例中,采用英伟达动态场景数据集(Nvidia Dynamic Scenes Datase)对合成模型进行训练。该数据集由8个动态场景组成,每个场景都用12个相机组成的相机阵进行拍摄,一共拍摄了24帧图片。在实际训练的时候每一帧图片只取12个视角的其中一个,以此来模拟单目视频效果,最终输入到网络模型中的是一个24帧的视频序列。Nvidia DynamicScenes Dataset数据集所选择的场景都是动态场景,其中包含人的动作、场景的变化、运动物体的捕捉等等情况。训练时网络会生成输入图像的所有预测结果,并与RGB图像及深度图像的真实值计算损失。在实际训练过程中会将图像压缩到512×288大小。
采用ResNet-50作为骨架网络对输入图像进行特征提取,其由Conv1、MaxPool、Conv2-1、Conv2-2、Conv2-3、Conv3-1、Conv3-2、Conv3-3、Conv3-4、Conv4-1、Conv4-2、Conv4-3、Conv4-4、Conv4-5、Conv4-6、Conv5-1、Conv5-2、Conv5-3组成,同时每个Conv层后面都会连接一个BatchNormalization(BN)层。利用此网络可获得通道数为2048、下采样32倍(2048-d,32-r)的特征图
Figure BDA0003854216030000092
利用在ImageNet上预训练的权值对CNN网络进行初始化。其网络结构如图2所示。
(2)对于自注意力编码器,将特征提取网络得到的特征图序列与位置编码进行数值求和后经过7个相同的卷积模块,每个模块包括一个卷积自注意力层以及一个2D卷积层。最终获得一个具有全局信息的特征图序列,大小与特征提取网络得到的特征图序列保持一致,包括:
(2-1)生成位置编码。对每一个特征图Ji都生成一个大小相同的恒定3D张量Pos_Map(i),用以表示每个特征图在序列中的位置信息。该张量使用sin和cos函数进行表示:
Pos_Map(p,(i,j,2k))=sin(p/100002k/D)
Pos_Map(p,(i,j,2k+1))=cos(p/100002k/D)
其中p∈[1,N]表示时间点位置,(i,j)表示特征的空间位置并且特征维度用2k表示,D表示特征提取网络得到的特征维度(为2048)。之后将特征图序列Ji与位置编码Pos-Map(i)相加得到自注意力编码器输入结果:
Figure BDA0003854216030000101
其中
Figure BDA0003854216030000102
表示元素维度相加,Zi的大小为
Figure BDA0003854216030000103
(2-2)卷积自注意力层。在生成包含位置编码的特征序列之后,可以使用自注意力机制将全局信息引入其中。具体来说,给定一个输入特征图序列
Figure BDA0003854216030000104
先经过一个卷积网络产生每一帧的key、query和value图:
Figure BDA0003854216030000105
以第i帧为例,在得到了Zi帧对应的
Figure BDA0003854216030000106
之后,可以利用第i帧的query图
Figure BDA0003854216030000107
与每一帧的key图
Figure BDA0003854216030000108
计算相似度
Figure BDA0003854216030000109
在得到
Figure BDA00038542160300001010
对应的所有相似度图
Figure BDA00038542160300001011
以后将
Figure BDA00038542160300001012
在特征维度上进行拼接得到
Figure BDA00038542160300001013
并经过softmax激活函数将
Figure BDA00038542160300001014
当作权重和
Figure BDA00038542160300001015
一起进行加权求和运算:
Figure BDA00038542160300001016
其中这里的
Figure BDA00038542160300001017
表示的是
Figure BDA00038542160300001018
中在特征维度上的第j个元素。
卷积自注意力层的具体网络结构如图3所示,给定一个输入特征图序列
Figure BDA00038542160300001019
分别经过卷积层Conv_K、Conv_Q以及Conv_V得到对应的key、query和value的值
Figure BDA00038542160300001020
其中卷积核的大小为1×1,输出与输入大小相同。以第i帧为例,将第i帧的
Figure BDA00038542160300001021
与每一帧的
Figure BDA00038542160300001022
计算相似度,具体计算方式为先将
Figure BDA00038542160300001023
Figure BDA00038542160300001024
在特征维度上进行拼接,之后利用一个卷积层Conv_attn将张量转化为一个一维标量:
Figure BDA0003854216030000111
在得到
Figure BDA0003854216030000112
与每一帧图像
Figure BDA0003854216030000113
的相似度值
Figure BDA0003854216030000114
之后,利用softmax函数将这些值变为加和为1的权重,从而引导
Figure BDA0003854216030000115
的加权求和:
Figure BDA0003854216030000116
Figure BDA0003854216030000117
(2-3)2D卷积层。在特征图经过卷积自注意力层之后,经过一个2D卷积层,该层为简单的1×12D卷积,不会改变输入特征图的大小。该层由三层网络组成,首先先经过一个1×1卷积层conv1将特征维度翻倍,之后经过一个LeakyReLU层进行激活,最后再经过一个1×1卷积层conv2将维度还原为与输入一致,最终输出不会改变输入特征图的大小。具体网络结构如图4所示。
(2-4)多模块组成的编码器。自注意力编码器由7个相同的模块组成,每个模块包含一个卷积自注意力层以及一个2D卷积层,并且每经过一层之后会经过LayerNorm层进行归一化并进行残差连接。经过编码器后特征图的大小不会发生变化,输出的特征图
Figure BDA0003854216030000118
具体编码器的结构示意图如图4左图所示。
(3)对于注意力解码器,利用2个相同的模块组成,每个模块包括一个卷积自注意力层、卷积注意力层以及一个2D卷积层。将特征提取网络得到的特征图进行插值操作得到中间时间特征图,并将其作为query与自注意力编码器得到的中间特征进行注意力操作,得到目标中间时刻的特征表达,包括:
(3-1)生成新时间序列。对于注意力解码器的输入序列
Figure BDA0003854216030000119
存在新时间点的特征图,为了得到中间时间的特征图表示,直接使用比例插值的方法获得。具体来说若想获得已知时间点第i帧图像,则对应的
Figure BDA0003854216030000121
取对应特征提取网络得到的Ji;若想获得Ii以及Ii+1中间的插值图像Ii+0.5,则对应的
Figure BDA0003854216030000122
取Ji与Ji+0.5的平均值。
(3-2)卷积自注意力层。将生成的新时间序列
Figure BDA0003854216030000123
与位置编码相加后输入至卷积自注意力层。该卷积自注意力层与自注意力编码器中的卷积自注意力层的结构一致。
(3-3)卷积注意力层。将卷积自注意力层的输出作为query,将自注意力编码器的输出
Figure BDA0003854216030000124
经过1×1卷积层Conv_K以及Conv_V得到的结果作为key和value进行注意力操作。具体的计算过程与卷积自注意力层一致。
(3-4)多模块组成的解码器。注意力解码器由2个相同的模块组成,每个模块包含一个卷积自注意力层、一个卷积注意力层和一个2D卷积层,并且每经过一层之后会经过LayerNorm层进行归一化并进行残差连接。经过解码器后可以得到目标时间点的特征图,大小与输入相同。解码器输出可以表示为
Figure BDA0003854216030000125
具体解码器的结构示意图如图4右图所示。
(4)对于神经辐射场网络,利用神经辐射场模型以及体渲染技术,以注意力解码器得到的特征作为驱动,得到目标时间点的隐式场景表达并合成新视点图像,包括:
(4-1)特征压缩。将注意力解码器输出的特征图
Figure BDA0003854216030000126
经过全局池化层变为特征向量
Figure BDA0003854216030000127
(4-2)多层感知器模型。参考神经辐射场模型,利用两个多层感知器网络对场景的动态部分以及静态部分分别进行建模。动态模型不仅受空间点坐标x以及视图方向d约束,同时与特征向量zi有关,最终输出对应的颜色值与体积密度:
Figure BDA0003854216030000128
静态模型只与空间点坐标与视图方向有关,输出颜色值、体积密度与混合权重v:
Figure BDA0003854216030000131
为了让模型可以更好地表达场景的高频信息,对于空间点坐标x以及视图方向d输入,使用位置编码函数将输入进行升维:
γ(p)=(sin(20πp),cos(20πp),...,sin(2L-1πp),cos(2L-1πp))
其中对于空间点坐标x取L=10;视图方向d取L=4。具体的MLP网络结构如图5中的(a)、(b)所示,其中,图5中的(a)、(b)分别为静态模型和动态模型的结构图。
(4-3)体渲染生成图像。利用静态模型与动态模型的结果来渲染目标视角或时间的图像。使用传统体渲染技术:
Figure BDA0003854216030000132
Figure BDA0003854216030000133
其中
Figure BDA0003854216030000134
表示累计透光率。在实际计算时将积分离散化为求和操作,最终RGB图像以及深度图像的生成利用求和得到:
RGB图像:
Figure BDA0003854216030000135
深度图像:
Figure BDA0003854216030000136
(5)在训练期间利用RGB图像以及深度图的均方误差损失函数对整个模型网络进行优化,包括:
(5-1)RGB图像优化。最小化合成RGB图像与真实RGB图像之间的均方差损失:
Figure BDA0003854216030000141
(5-2)深度图像优化。最小化合成深度图像与真实深度图像的均方差损失:
Figure BDA0003854216030000142
(5-3)多任务联合优化。模型为端到端网络,同时优化多个损失函数来更新整体网络参数:
Figure BDA0003854216030000143
其中λ为一个平衡因子,本实例中设置为0.04。
整个网络的训练细节如下:整个网络采用端到端的方式进行训练,采用Adam优化器进行优化。网络初始学习率定为0.0005,每100000个迭代周期学习率下降到原来的十分之一,最终迭代360000个周期收敛。
(6)在应用阶段,在神经辐射场模型(即基于多层感知器建立的静态模型和动态模型)中输入对应时间点的特征图以及新的视角方向得到新视点图像的结果;对于新时间图像将特征提取网络得到的特征图进行插值并经过注意力解码器和神经辐射场模型得到结果。最终测试过程的可视化结果如图6所示,第一行表示时间固定、视角插值的输出结果;第二行表示视角固定、时间插值的输出结果;第三行表示时间与视角同时插值的输出结果。
本发明实施例提供一种基于自注意力机制的单目输入动态场景新视图合成系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述任一实施例所述的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于自注意力机制的单目输入动态场景新视图合成方法,其特征在于,包括:
训练阶段:
以动态场景的单目视频序列作为训练集,对合成模型进行训练;其中,以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像的均方差为损失函数;所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块:
其中,所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列;所述位置编码模块用于将各特征图与与其大小相同且带有位置信息的3D张量进行相加,得到引入位置信息的特征图序列;
所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作,得到引入全局信息的特征图序列;所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列进行自注意力操作后得到的结果作为query,以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value,进行注意力操作,得到输出特征图序列;
所述视图生成模块用于将时间信息、场景空间点的坐标、视图方向输入至动态模型,将场景空间点的坐标、视图方向输入至静态模型,并将所述动态模型及静态模型的输出结果进行融合、渲染,得到RGB图像及深度图像;其中,以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息;所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取;所述视图方向从所述单目视频序列对应的相机参数中得到;
应用阶段:
将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型,将特定视图方向、及场景空间点坐标输入至所述静态模型,将所述动态模型及静态模型的输出结果进行融合、渲染,得到所述特定视图方向及特定时间下的RGB图像;其中,所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作后得到的结果进行全局池化得到的特征向量。
2.如权利要求1所述的方法,其特征在于,对特征图序列进行插值操作得到插帧特征图序列。
3.如权利要求1所述的方法,其特征在于,自注意力编码器包括多个卷积模块,各卷积模块均包括卷积自注意力层及二维卷积层;所述卷积自注意力层用于将对特征图序列Z={Z1,Z2,…,ZN}经卷积处理后得到的结果作为query图、key图、value图,计算特征图Zi的query图
Figure FDA0003854216020000021
与各特征图的key图
Figure FDA0003854216020000022
的相似度
Figure FDA0003854216020000023
Figure FDA0003854216020000024
作权重,对各特征图的value图vj进行加权计算得到
Figure FDA0003854216020000025
所述二维卷积层对
Figure FDA0003854216020000026
进行卷积操作后,得到引入全局信息的特征图序列。
4.如权利要求3所述的方法,其特征在于,将对特征图序列Z={Z1,Z2,…,ZN}分别经卷积层Conv_Q、Conv_K、Conv_V进行卷积处理后得到的结果作为query图、key图、value图。
5.如权利要求1或3所述的方法,其特征在于,所述注意力解码器包括多个卷积模块,各卷积模块均包括卷积自注意力层及卷积注意力层;
所述卷积自注意力层用于对特征图序列及插帧特征图序列进行自注意力操作;
所述卷积注意力层用于将所述卷积自注意力层的输出的结果作为query图,将对所述引入全局信息的特征图序列进行卷积处理得到的结果作为key图和value图,进行注意力操作,得到输出特征图序列。
6.如权利要求5所述的方法,其特征在于,将对所述引入全局信息的特征图序列分别经卷积层Conv_K、Conv_V进行卷积处理得到的结果作为key图、value图。
7.如权利要求1所述的方法,其特征在于,所述动态模型及静态模块均基于多层感知器网络建立。
8.一种基于自注意力机制的单目输入动态场景新视图合成系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-7任一项所述的方法。
CN202211142903.4A 2022-09-20 2022-09-20 基于自注意力机制的单目输入动态场景新视图合成方法 Pending CN115565039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211142903.4A CN115565039A (zh) 2022-09-20 2022-09-20 基于自注意力机制的单目输入动态场景新视图合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211142903.4A CN115565039A (zh) 2022-09-20 2022-09-20 基于自注意力机制的单目输入动态场景新视图合成方法

Publications (1)

Publication Number Publication Date
CN115565039A true CN115565039A (zh) 2023-01-03

Family

ID=84740612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211142903.4A Pending CN115565039A (zh) 2022-09-20 2022-09-20 基于自注意力机制的单目输入动态场景新视图合成方法

Country Status (1)

Country Link
CN (1) CN115565039A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116067360A (zh) * 2023-01-09 2023-05-05 安徽工程大学 一种基于双重约束的机器人地图构建方法、存储介质及设备
CN116977360A (zh) * 2023-04-24 2023-10-31 北京大学 一种基于神经辐射场的去除遮挡方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116067360A (zh) * 2023-01-09 2023-05-05 安徽工程大学 一种基于双重约束的机器人地图构建方法、存储介质及设备
CN116067360B (zh) * 2023-01-09 2023-08-22 安徽工程大学 一种基于双重约束的机器人地图构建方法、存储介质及设备
CN116977360A (zh) * 2023-04-24 2023-10-31 北京大学 一种基于神经辐射场的去除遮挡方法
CN116977360B (zh) * 2023-04-24 2024-05-31 北京大学 一种基于神经辐射场的去除遮挡方法

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
He et al. InSituNet: Deep image synthesis for parameter space exploration of ensemble simulations
Chen et al. Tensorf: Tensorial radiance fields
Kim et al. Deep monocular depth estimation via integration of global and local predictions
Zhou et al. View synthesis by appearance flow
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN110533712A (zh) 一种基于卷积神经网络的双目立体匹配方法
US11640690B2 (en) High resolution neural rendering
CN115565039A (zh) 基于自注意力机制的单目输入动态场景新视图合成方法
CN112396645A (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN113962858A (zh) 一种多视角深度获取方法
WO2023091249A1 (en) Neural semantic fields for generalizable semantic segmentation of 3d scenes
CN112819951A (zh) 一种基于深度图修复的带遮挡三维人体重建方法
Karpov et al. Exploring efficiency of vision transformers for self-supervised monocular depth estimation
CN116402679A (zh) 一种轻量级红外超分辨率自适应重建方法
Chen et al. PDWN: Pyramid deformable warping network for video interpolation
Yuan et al. A novel deep pixel restoration video prediction algorithm integrating attention mechanism
Suzuki et al. Residual learning of video frame interpolation using convolutional LSTM
Liu et al. Sketch to portrait generation with generative adversarial networks and edge constraint
CN112541972A (zh) 一种视点图像处理方法及相关设备
Dao et al. FastMDE: A fast CNN architecture for monocular depth estimation at high resolution
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN116883524A (zh) 图像生成模型训练、图像生成方法、装置和计算机设备
Kolodiazhna et al. 3D scene reconstruction with neural radiance fields (NeRF) considering dynamic illumination conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination