CN115565039A

CN115565039A - 基于自注意力机制的单目输入动态场景新视图合成方法

Info

Publication number: CN115565039A
Application number: CN202211142903.4A
Authority: CN
Inventors: 孙慧强; 曹治国; 李星毅; 鲜可; 王一然; 申立奥
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-01-03

Abstract

本发明公开了一种基于自注意力机制的单目输入动态场景新视图合成方法，提出了一种动态场景新视图合成新范式，即利用自注意力机制表达动态场景在时间维度上的内在关联，从而利用时间全局信息来完成动态场景的新视点合成，可以得到真实可靠的新视图合成结果，同时去除了光流与场景流的约束，简化模型的训练，并降低模型的内存开销与训练时间；去除了场景流的预测以及光流信息的先验，在得到可靠的新视图合成结果的同时简化了模型的优化，同时降低了内存开销。

Description

基于自注意力机制的单目输入动态场景新视图合成方法

技术领域

本发明属于新视图合成领域，更具体地，涉及一种基于自注意力机制的单目输入动态场景新视图合成方法。

背景技术

随着计算机视觉领域的不断发展，新视图合成已经成为了计算机视觉领域的基本问题之一。它之所以受到人们的关注，是因为其应用非常的广泛。比如当今流行的VR技术，虚拟3D地图都用到了这项技术，甚至它在体育，电影等行业中也具有广阔的前景。因此近几年在学术界出现了许多有关新视图合成的研究。

动态场景的新视点合成是新视图合成领域的一个研究热点，该任务的目的是根据动态场景的输入视频或图像，利用算法重建出场景在时间与空间上的四维信息，最终可以达到在时间与视角两个维度的新视图合成效果。动态场景的新视点合成可以应用于电影制作、体育比赛回放等应用当中，它可以打破二维平面带来的观察局限性，为人们提供更加全面直观的场景展示。

目前利用神经辐射场模型完成动态场景的新视点合成算法总共可以分为两大类：基于基准模型与形变模型的算法与基于动态模型与静态模型的算法。基于基准模型与形变模型的方法主要通过基准模型生成动态场景的基准平均场景表达，而对于每一个时间点的场景则使用形变模型生成变化量从平均场景形变到每一时刻的具体场景，从而实现动态场景的表达。基于动态场景与静态场景的方法则使用静态模型重建场景中的静态部分，使用动态模型重建场景中的动态部分，最终将两个模型的结果进行融合得到最终的动态场景表达。以上的方法若想要达到很好的效果都需要预测场景流信息来表示场景的变化，并使用光流的先验来对场景流进行约束。这使得模型的优化变得复杂，同时需要过多的内存消耗。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于自注意力机制的单目输入动态场景新视图合成方法，其目的在于利用自注意力机制的高性能解决动态场景的重建问题，同时去除场景流参数的预测，简化模型优化，降低内存开销

为实现上述目的，按照本发明的第一方面，提供一种基于自注意力机制的单目输入动态场景新视图合成方法，包括：

训练阶段：

以动态场景的单目视频序列作为训练集，对合成模型进行训练；其中，以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像的均方差为损失函数；所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块：

其中，所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列；所述位置编码模块用于将各特征图与与其大小相同且带有位置信息的3D张量进行相加，得到引入位置信息的特征图序列；

所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作，得到引入全局信息的特征图序列；所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列进行自注意力操作后得到的结果作为query，以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value，进行注意力操作，得到输出特征图序列；

所述视图生成模块用于将时间信息、场景空间点的坐标、视图方向输入至动态模型，将场景空间点的坐标、视图方向输入至静态模型，并将所述动态模型及静态模型的输出结果进行融合、渲染，得到RGB图像及深度图像；其中，以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息；所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取；所述视图方向从所述单目视频序列对应的相机参数中得到；

应用阶段：

将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型，将特定视图方向、及场景空间点坐标输入至所述静态模型，将所述动态模型及静态模型的输出结果进行融合、渲染，得到所述特定视图方向及特定时间下的RGB图像；其中，所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作后得到的结果进行全局池化得到的特征向量。

按照本发明的第二方面，提供了一种基于自注意力机制的单目输入动态场景新视图合成系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如第一方面所述的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法，提出了一种动态场景新视图合成新范式，即利用自注意力机制表达动态场景在时间维度上的内在关联，从而利用时间全局信息来完成动态场景的新视点合成，可以得到真实可靠的新视图合成结果，同时去除了光流与场景流的约束，简化模型的训练，并降低模型的内存开销与训练时间。

2、本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法，去除了场景流的预测以及光流信息的先验，在得到可靠的新视图合成结果的同时简化了模型的优化，同时降低了内存开销。

3、本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法，利用神经辐射场模型进行新视图合成，可以得到真实合理的新时间以及新视角的新视点图像。

附图说明

图1是本发明实施例提供的基于自注意力机制的单目输入动态场景新视图合成方法的流程图；

图2是本发明实施实施例提供的特征提取网络结构图；

图3是本发明实施例提供的卷积自注意力层网络结构图；

图4是本发明实施例提供的自注意力编码器与注意力解码器的技术流程图；

图5中的(a)、(b)分别为本发明实施例提供的神经辐射场网络结构图；

图6是本发明实施例提供的三种不同形式的模型输出结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供一种基于自注意力机制的单目输入动态场景新视图合成方法，如图1所示，包括：

训练阶段：

以动态场景的单目视频序列作为训练集，对合成模型进行训练；其中，以所述合成模型生成的RGB图像及深度图像与真实的RGB图像及深度图像(真实的RGB图像即输入的单目视频序列，真实的深度图像是将单目视频序列输入至例如midas、dpt等深度预测模型得到)的均方差为损失函数；所述合成模型包括特征提取网络、位置编码模块、自注意力编码器、注意力解码器及视图生成模块：

其中，所述特征提取网络用于对单目视频序列进行特征提取得到特征图序列；所述位置编码模块用于将各特征图与其大小相同且带有位置信息的3D张量进行相加，得到引入位置信息的特征图序列。

具体地，所述特征提取网络用于对单目视频序列I_i中的各帧图像进行特征提取得到特征图序列J_i；i＝1，2，…，N。

所述位置编码模块用于生成与J_i大小相同的3D张量Pos_Map(_i)以对J_i进行位置编码，并将J_i与Pos_Map(_i)相加得到引入位置信息的特征图序列Z_i。

对于每一个特征图J_i都生成一个大小相同的恒定3D张量Pos_Map(_i)以表示特征图J_i的位置信息，将特征图序列J_i与位置编码Pos_Map_(i)相加后得到引入位置信息的特征图，输入自注意力编码器。

所述自注意力编码器用于对所述引入位置信息的特征图序列进行自注意力操作，得到引入全局信息的特征图序列；所述注意力解码器用于以将所述引入位置信息的特征图序列及插帧特征图序列(此时的插帧是整数帧，即训练阶段的插帧是整数帧)进行自注意力操作后得到的结果作为query，以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value，进行注意力操作，得到输出特征图序列。

优选地，对特征图序列进行插值操作得到插帧特征图序列。

具体地，基于比例插值法获取特征图J_i之间的插帧特征图。

所述自注意力编码器包括多个卷积模块，各卷积模块均包括卷积自注意力层，用于对Z_i进行自注意力操作，得到引入全局信息的特征图

所述注意力解码器包括多个卷积模块，各卷积模块均包括卷积自注意力层及卷积注意力层；所述卷积注意力层用于将所述卷积自注意力层对J_i及J_i之间的插帧特征图序列

进行自注意力操作后输出的结果作为query，将对

分别经卷积层Conv_K、Conv_V进行卷积处理后得到的结果作为key和value，进行注意力操作，得到输出特征图F_i；

所述视图生成模块用于将时间信息、空间点的坐标、视图方向输入至动态模型，将其空间点的坐标、视图方向输入至静态模型，并将所述动态模型及静态模型的输出结果进行融合、渲染，得到RGB图像及深度图像；其中，以将所述输出特征图序列进行全局池化得到的特征向量作为时间信息；所述空间点从对所述单目视频序列的每一个视图方向的相机光线上选取；所述视图方向从输入单目视频序列对应的相机参数中得到。

具体地，对所述单目视频序列的每一个视图方向进行相机光线采样，在每条光线上选取空间点；将最终特征图进行平均池化后得到的特征向量作为时间信息，利用两个多层感知器对动态场景进行表达，其中，将空间点坐标、视图方向以及表征时间信息的特征向量输入至动态模型，同时将空间点坐标、视图方向输入至静态模型，以此完成场景的动态、静态信息的分开表达，最终将两者的结果进行融合，并利用体渲染技术得到最终渲染图像。

应用阶段：

将特定视图方向、场景空间点坐标及特定时间信息输入至所述动态模型，将特定视图方向、及场景空间点坐标输入至所述静态模型，将所述动态模型及静态模型的输出结果进行融合、渲染，得到所述特定视图方向及特定时间下的RGB图像；其中，所述特定时间信息为将特定时间下的插帧特征图输入至注意力解码器进行注意力操作(即以特定时间下的插帧特征图为作为query，以对所述引入全局信息的特征图序列进行卷积处理后的结果作为key和value，进行注意力操作)后得到的结果进行全局池化得到的特征向量。

在实际操作中，可将特征提取网络的特征图序列与自注意力编码器的输出进行保存。在应用阶段，特征提取网络的特征图序列可用于获取特定时间下的插帧特征图，其中，特定时间下的插帧特征图为非整数帧；自注意力编码器的输出可用于获取特定时间信息。

可以理解的是，在应用阶段，仅用到了注意力解码器和静态模型、动态模型。

优选地，自注意力编码器包括多个卷积模块，各卷积模块均包括卷积自注意力层及二维卷积层；所述卷积自注意力层用于将对特征图序列Z＝{Z₁，Z₂，...，Z_N}经卷积处理后得到的结果作为query图、key图、value图，计算特征图Z_i的query图Q_i与各特征图的key图

的相似度

以

作权重，对各特征图的value图

进行加权计算得到

所述二维卷积层对

进行卷积操作后，得到引入全局信息的特征图序列。

优选地，将对特征图序列Z＝{Z₁，Z₂，...，Z_N}分别经卷积层Conv_Q、Conv_K、Conv_V进行卷积处理后得到的结果作为query图、key图、value图。

优选地，所述注意力解码器包括多个卷积模块，各卷积模块均包括卷积自注意力层及卷积注意力层；

所述卷积自注意力层用于对特征图序列及插帧特征图序列进行自注意力操作；

所述卷积注意力层用于将所述卷积自注意力层的输出的结果作为query图，将对所述引入全局信息的特征图序列进行卷积处理得到的结果作为key图和value图，进行注意力操作，得到输出特征图序列；

优选地，将对所述引入全局信息的特征图序列分别经卷积层Conv_K、Conv_V进行卷积处理得到的结果作为key图、value图。

优选地，所述动态模型及静态模块均基于多层感知器网络建立。

综上，本发明提供的基于自注意力机制的单目输入动态场景新视图合成方法，通过建立并训练的合成模型实现对新视图的合成，合成模型包括特征提取网络、自注意力编码器、注意力解码器和视图生成网络，利用深度卷积网络作为骨架网络对输入图像序列进行特征提取；对于自注意力编码器，基于自注意力机制将特征提取网络得到的特征序列进行自注意力操作，得到具有全局信息的中间特征；对于注意力解码器，将特征提取网络得到的特征图进行插值操作得到中间时间特征图，并将其作为query与自注意力编码器得到的中间特征进行注意力操作，得到目标中间时刻的特征表达；对于视图生成网络，参考神经辐射场模型，使用多层感知器网络以注意力解码器得到的特征作为驱动得到目标时间点的隐式场景表达，最终通过体渲染技术得到新视点图片；利用RGB图像以及深度图的均方误差损失函数对整个模型网络进行优化。

下面以一个具体的例子对本发明提供的方法进行进一步的说明。

为实现上述目的，本发明提供了一种基于自注意力机制的单目输入动态场景新视点合成方法，包括：

(1)输入动态场景的单目视频序列，利用ResNet-50作为输入的每帧图像共享的骨架网络，对输入的图像序列进行特征提取，获得32倍降采样的特征图序列，包括：

同时提取输入图像序列特征。模型输入一个动态场景的单目视频图像序列，该图像序列帧数N可在20-30帧左右。将这些图像同时输入到一个特征提取网络，每一张原始图像得到对应的特征图。特征提取网络采用预训练的ResNet-50，对于输入图像序列

经过特征提取网络获得特征图序列

其中i∈[1,N]。

采用CNN网络对输入的视频图像序列进行特征提取，对数据集体量和特征、以及CNN的结构如下所述：

本例中，采用英伟达动态场景数据集(Nvidia Dynamic Scenes Datase)对合成模型进行训练。该数据集由8个动态场景组成，每个场景都用12个相机组成的相机阵进行拍摄，一共拍摄了24帧图片。在实际训练的时候每一帧图片只取12个视角的其中一个，以此来模拟单目视频效果，最终输入到网络模型中的是一个24帧的视频序列。Nvidia DynamicScenes Dataset数据集所选择的场景都是动态场景，其中包含人的动作、场景的变化、运动物体的捕捉等等情况。训练时网络会生成输入图像的所有预测结果，并与RGB图像及深度图像的真实值计算损失。在实际训练过程中会将图像压缩到512×288大小。

采用ResNet-50作为骨架网络对输入图像进行特征提取，其由Conv1、MaxPool、Conv2-1、Conv2-2、Conv2-3、Conv3-1、Conv3-2、Conv3-3、Conv3-4、Conv4-1、Conv4-2、Conv4-3、Conv4-4、Conv4-5、Conv4-6、Conv5-1、Conv5-2、Conv5-3组成，同时每个Conv层后面都会连接一个BatchNormalization(BN)层。利用此网络可获得通道数为2048、下采样32倍(2048-d，32-r)的特征图

利用在ImageNet上预训练的权值对CNN网络进行初始化。其网络结构如图2所示。

(2)对于自注意力编码器，将特征提取网络得到的特征图序列与位置编码进行数值求和后经过7个相同的卷积模块，每个模块包括一个卷积自注意力层以及一个2D卷积层。最终获得一个具有全局信息的特征图序列，大小与特征提取网络得到的特征图序列保持一致，包括：

(2-1)生成位置编码。对每一个特征图J_i都生成一个大小相同的恒定3D张量Pos_Map_(i)，用以表示每个特征图在序列中的位置信息。该张量使用sin和cos函数进行表示：

Pos_Map_{(p，(i，j，2k))}＝sin(p/10000^2k/D)

Pos_Map_{(p，(i，j，2k+1))}＝cos(p/10000^2k/D)

其中p∈[1，N]表示时间点位置，(i，j)表示特征的空间位置并且特征维度用2k表示，D表示特征提取网络得到的特征维度(为2048)。之后将特征图序列J_i与位置编码Pos-Map_(i)相加得到自注意力编码器输入结果：

其中

表示元素维度相加，Z_i的大小为

(2-2)卷积自注意力层。在生成包含位置编码的特征序列之后，可以使用自注意力机制将全局信息引入其中。具体来说，给定一个输入特征图序列

先经过一个卷积网络产生每一帧的key、query和value图：

以第i帧为例，在得到了Z_i帧对应的

之后，可以利用第i帧的query图

与每一帧的key图

计算相似度

在得到

对应的所有相似度图

以后将

在特征维度上进行拼接得到

并经过softmax激活函数将

当作权重和

一起进行加权求和运算：

其中这里的

表示的是

中在特征维度上的第j个元素。

卷积自注意力层的具体网络结构如图3所示，给定一个输入特征图序列

分别经过卷积层Conv_K、Conv_Q以及Conv_V得到对应的key、query和value的值

其中卷积核的大小为1×1，输出与输入大小相同。以第i帧为例，将第i帧的

与每一帧的

计算相似度，具体计算方式为先将

与

在特征维度上进行拼接，之后利用一个卷积层Conv_attn将张量转化为一个一维标量：

在得到

与每一帧图像

的相似度值

之后，利用softmax函数将这些值变为加和为1的权重，从而引导

的加权求和：

(2-3)2D卷积层。在特征图经过卷积自注意力层之后，经过一个2D卷积层，该层为简单的1×12D卷积，不会改变输入特征图的大小。该层由三层网络组成，首先先经过一个1×1卷积层conv1将特征维度翻倍，之后经过一个LeakyReLU层进行激活，最后再经过一个1×1卷积层conv2将维度还原为与输入一致，最终输出不会改变输入特征图的大小。具体网络结构如图4所示。

(2-4)多模块组成的编码器。自注意力编码器由7个相同的模块组成，每个模块包含一个卷积自注意力层以及一个2D卷积层，并且每经过一层之后会经过LayerNorm层进行归一化并进行残差连接。经过编码器后特征图的大小不会发生变化，输出的特征图

具体编码器的结构示意图如图4左图所示。

(3)对于注意力解码器，利用2个相同的模块组成，每个模块包括一个卷积自注意力层、卷积注意力层以及一个2D卷积层。将特征提取网络得到的特征图进行插值操作得到中间时间特征图，并将其作为query与自注意力编码器得到的中间特征进行注意力操作，得到目标中间时刻的特征表达，包括：

(3-1)生成新时间序列。对于注意力解码器的输入序列

存在新时间点的特征图，为了得到中间时间的特征图表示，直接使用比例插值的方法获得。具体来说若想获得已知时间点第i帧图像，则对应的

取对应特征提取网络得到的J_i；若想获得I_i以及I_i+1中间的插值图像I_i+0.5，则对应的

取J_i与J_i+0.5的平均值。

(3-2)卷积自注意力层。将生成的新时间序列

与位置编码相加后输入至卷积自注意力层。该卷积自注意力层与自注意力编码器中的卷积自注意力层的结构一致。

(3-3)卷积注意力层。将卷积自注意力层的输出作为query，将自注意力编码器的输出

经过1×1卷积层Conv_K以及Conv_V得到的结果作为key和value进行注意力操作。具体的计算过程与卷积自注意力层一致。

(3-4)多模块组成的解码器。注意力解码器由2个相同的模块组成，每个模块包含一个卷积自注意力层、一个卷积注意力层和一个2D卷积层，并且每经过一层之后会经过LayerNorm层进行归一化并进行残差连接。经过解码器后可以得到目标时间点的特征图，大小与输入相同。解码器输出可以表示为

具体解码器的结构示意图如图4右图所示。

(4)对于神经辐射场网络，利用神经辐射场模型以及体渲染技术，以注意力解码器得到的特征作为驱动，得到目标时间点的隐式场景表达并合成新视点图像，包括：

(4-1)特征压缩。将注意力解码器输出的特征图

经过全局池化层变为特征向量

(4-2)多层感知器模型。参考神经辐射场模型，利用两个多层感知器网络对场景的动态部分以及静态部分分别进行建模。动态模型不仅受空间点坐标x以及视图方向d约束，同时与特征向量z_i有关，最终输出对应的颜色值与体积密度：

静态模型只与空间点坐标与视图方向有关，输出颜色值、体积密度与混合权重v：

为了让模型可以更好地表达场景的高频信息，对于空间点坐标x以及视图方向d输入，使用位置编码函数将输入进行升维：

γ(p)＝(sin(2⁰πp)，cos(2⁰πp)，...，sin(2^L-1πp)，cos(2^L-1πp))

其中对于空间点坐标x取L＝10；视图方向d取L＝4。具体的MLP网络结构如图5中的(a)、(b)所示，其中，图5中的(a)、(b)分别为静态模型和动态模型的结构图。

(4-3)体渲染生成图像。利用静态模型与动态模型的结果来渲染目标视角或时间的图像。使用传统体渲染技术：

其中

表示累计透光率。在实际计算时将积分离散化为求和操作，最终RGB图像以及深度图像的生成利用求和得到：

RGB图像：

深度图像：

(5)在训练期间利用RGB图像以及深度图的均方误差损失函数对整个模型网络进行优化，包括：

(5-1)RGB图像优化。最小化合成RGB图像与真实RGB图像之间的均方差损失：

(5-2)深度图像优化。最小化合成深度图像与真实深度图像的均方差损失：

(5-3)多任务联合优化。模型为端到端网络，同时优化多个损失函数来更新整体网络参数：

其中λ为一个平衡因子，本实例中设置为0.04。

整个网络的训练细节如下：整个网络采用端到端的方式进行训练，采用Adam优化器进行优化。网络初始学习率定为0.0005，每100000个迭代周期学习率下降到原来的十分之一，最终迭代360000个周期收敛。

(6)在应用阶段，在神经辐射场模型(即基于多层感知器建立的静态模型和动态模型)中输入对应时间点的特征图以及新的视角方向得到新视点图像的结果；对于新时间图像将特征提取网络得到的特征图进行插值并经过注意力解码器和神经辐射场模型得到结果。最终测试过程的可视化结果如图6所示，第一行表示时间固定、视角插值的输出结果；第二行表示视角固定、时间插值的输出结果；第三行表示时间与视角同时插值的输出结果。

本发明实施例提供一种基于自注意力机制的单目输入动态场景新视图合成系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如上述任一实施例所述的方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力机制的单目输入动态场景新视图合成方法，其特征在于，包括：

训练阶段：

应用阶段：

2.如权利要求1所述的方法，其特征在于，对特征图序列进行插值操作得到插帧特征图序列。

3.如权利要求1所述的方法，其特征在于，自注意力编码器包括多个卷积模块，各卷积模块均包括卷积自注意力层及二维卷积层；所述卷积自注意力层用于将对特征图序列Z＝{Z₁,Z₂,…,Z_N}经卷积处理后得到的结果作为query图、key图、value图，计算特征图Z_i的query图

与各特征图的key图

的相似度

以

作权重，对各特征图的value图v_j进行加权计算得到

所述二维卷积层对

进行卷积操作后，得到引入全局信息的特征图序列。

4.如权利要求3所述的方法，其特征在于，将对特征图序列Z＝{Z₁,Z₂,…,Z_N}分别经卷积层Conv_Q、Conv_K、Conv_V进行卷积处理后得到的结果作为query图、key图、value图。

5.如权利要求1或3所述的方法，其特征在于，所述注意力解码器包括多个卷积模块，各卷积模块均包括卷积自注意力层及卷积注意力层；

所述卷积注意力层用于将所述卷积自注意力层的输出的结果作为query图，将对所述引入全局信息的特征图序列进行卷积处理得到的结果作为key图和value图，进行注意力操作，得到输出特征图序列。

6.如权利要求5所述的方法，其特征在于，将对所述引入全局信息的特征图序列分别经卷积层Conv_K、Conv_V进行卷积处理得到的结果作为key图、value图。

7.如权利要求1所述的方法，其特征在于，所述动态模型及静态模块均基于多层感知器网络建立。

8.一种基于自注意力机制的单目输入动态场景新视图合成系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行如权利要求1-7任一项所述的方法。