CN114004773A - 基于深度学习以及反向映射实现的单目多视点视频合成方法 - Google Patents
基于深度学习以及反向映射实现的单目多视点视频合成方法 Download PDFInfo
- Publication number
- CN114004773A CN114004773A CN202111217095.9A CN202111217095A CN114004773A CN 114004773 A CN114004773 A CN 114004773A CN 202111217095 A CN202111217095 A CN 202111217095A CN 114004773 A CN114004773 A CN 114004773A
- Authority
- CN
- China
- Prior art keywords
- layer
- coordinates
- camera
- sampling
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000013507 mapping Methods 0.000 title claims abstract description 19
- 238000001308 synthesis method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习以及反向映射实现的单目多视点视频合成方法,主要包括相机信息收集部分、模型训练部分和视频合成部分。通过收集单目相机生成的视频以及相机的内参,估计出该相机视角下的深度图,再通过给定虚拟视点下与相机的相对外参,通过反向映射算法,从而实现中间的任意一点虚拟相机视角下的视频合成。本发明方法主要用于大场景下用于监控,直播等环境中,大大节省了资源成本,通过少量的相机实现多视点的视频呈现。
Description
技术领域
本发明属于单目多视点视频合成技术领域,具体涉及一种基于深度学习以及反向映射实现的单目多视点视频合成方法。
背景技术
自由视点视频可以向观看者提供任意的观看角度和位置,因此具有非常出色的人机交互体验和观看浸入感,被认为是未来数字电视的主要发展方向之一。自由视点视频可以广泛应用于体育赛事转播、文艺演出、互动课程等娱乐与教育行业,也可以应用于临床手术、军事战略研究等社会工作与国防科技领域。自由视点视频的发展能够提高社会的生产效率,改变人类的生活,它的发展具有重大意义。然而,自由视点视频的数据量会随着可观看视点数量的增加成几何倍数的增长,这给视频的采集、存储和传输等带来了巨大的压力。在众多虚拟视点合成方法中,基于深度信息的虚拟视点合成技术因为运算消耗低、合成效果逼真得到了较多的关注。目前多视点视频合成领域的问题是,深度图获取困难,成本高昂,而且获取到的深度图不够准确,为了解决此问题,我们引入了深度学习来获取更为真实的深度图,通过准备好的训练样本,残差网络以及编码器解码器结构优化我们的深度估计神经网络。后通过反向映射投影,取得效果更好的图像。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于深度学习以及反向映射实现的单目多视点视频合成方法。
本发明的目的是通过以下技术方案来实现的:一种基于深度学习以及反向映射实现的单目多视点视频合成方法,该方法包括以下步骤:
S1:通过三个含内参的相机采集视频;其中位于中间位置相机为虚拟视点待生产,仅获取内参数,其余两个相机获取视频连续帧图片以及相机内参,用于深度图训练;通过相机标定法获取三个相机的旋转平移矩阵;
S2:通过额外的深度相机采集深度图和原图扩充训练集用于训练;
S3:构建深度估计网络模型,模型整体架构为在U-Net的编码器解码器的结构上加上紧密的上下采样连接层,用于减小上采样或下采样中产生的误差,编码器的输入为深度相机采集的视频单帧图像;
S31:编码器结构为5层结构,且每一层有分别做两次卷积操作以及一次下采样操作,在每次卷积时做一次归一化以及relu,在每一层结束时收集每一层的特征在解码器上采样时使用;
S32:解码器结构包括基于双线性插值法的5层上采样结构的解码模块,解码器结构的第5层和编码器结构的第5层为同一层,记为编/解码模块;每一次上采样时编码器所对应的下采样图像特征以及其他层数的采样特征进行融合采样;具体为:第1层解码模块由第2-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1层的编码器下采样构成,第2层解码模块由第3-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-2层的编码器下采样构成,第3层解码模块由第4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-3层的编码器下采样构成,第4层解码模块由第5层编/解码模块的输出做上采样以及第1-4层的编码器下采样构成,第5层由自己本身构成,第1-4层解码模块通过Swish激活函数分别输出,然后将每一个尺度的图片的像素点通过双线性插值进行处理得到扩大后的深度图;
S4:引入多尺度误差估计,对编码器1~4层模块的输出分别用L1Loss损失函数计算损失,最后将结果除以4以得到最终的损失用于训练网络模型;
S5:将训练好的深度估计网络模型用于多视点视频合成;给定一张彩色图像,通过深度估计网络模型生成深度图像Dt*,再通过生成该图片的相机的内外参数,以及虚拟视点下的内外参通过投影公式,将2D坐标转化为3D视角下的坐标,然后投影到目标虚拟相机上;
S6:通过投影后得到虚拟视点的深度图,利用深度图将虚拟视点图像中的整数坐标平移到参考视点位置下的浮点数坐标;取参考视点图像浮点数坐标附近4个点的像素值,用双线性插值计算出对应虚拟视点图像位置处的像素值;并在另一个视点下,用同样的方法投影到虚拟视点下,计算虚拟视点图像对应位置处的像素值;
S7:根据得到的两张虚拟视点的图像,其中一张用于填充另一张的空洞以及丢失的信息,再对图像进行滤波处理,得到更平滑的图像。
进一步地,步骤S31中,编码器的输入为将深度相机生成的原视频单帧图像缩放为192*640*3分辨率或者328*1024*3分辨率的图片;下采样过程中每次高度宽度减小为原来的一半,在每一次下采样时,通道数依次为,64,64,128,256,512,最后一层降为6*20*512或者10*32*512的特征图。
进一步地,步骤S32中,双线性插值算法具体如下,x,y为待求像素值的那一点的坐标,Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)为f(x,y)点的临近坐标,需要求f(x,y)点的像素值,已知Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)、x、y的坐标以及Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)各点的像素值f(Q11)、f(Q21)、f(Q12)、f(Q22),首先用关于x方向的单线性插值去分别计算f(x,y1)、f(x,y2)的像素值:
再使用关于y方向的单线性插值计算f(x,y)点的像素值:
进一步地,步骤S4中,L1Loss损失函数具体计算过程如下:
其中i代表每一点的坐标,N代表长度*宽度,即图像上的所有像素点;Dt*为通过深度估计网络模型生成的深度图,Dt为通过深度相机获取到的真实深度图,通过损失函数优化模型。
进一步地,步骤S5中,先将2D视角下的图像通过下面的公式π-1投影投到3D坐标中;
其中x,y为原彩色图像的坐标,p为投影后的具体坐标,D(P)为该坐标点对应的深度,(fx,fy,cx,cy)为该视角下相机内外参;
通过下面公式π将3D坐标投影到2D图像中;
其中,X,Y,Z为投影的3D坐标,此时的(fx2,fy2,Cx2,Cy2)为虚拟视点下的相机内外参。
本发明的有益效果:
通过该发明方法,可以获取少量的摄像头设备,获取到更多视点下的虚拟图像,可灵活运用在室外需要摄像头密集部署的场景,如体育场,广场等。大大的减少了成本。
附图说明
图1为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的流程图;
图2为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的UNet架构图;
图3为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的ResNet-18中残差块的结构图;
图4为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的深度估计网络流程图;
图5为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的深度学习生成的深度图;
图6为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的虚拟视点图像;
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1和图4所示,本发明提供了一种基于深度学习以及反向映射实现的单目多视点视频合成方法,包括如下步骤:
S1:进行样本采集。通过三个含内参的相机采集视频。其中中间位置相机为虚拟视点待生产,仅获取内外参即可,其余两个相机获取视频连续帧图片以及相机内参,用于深度图训练;通过相机标定法获取三个相机的旋转平移矩阵(外参),内参为相机出场设置获取。。或者使用公开数据如KITTI,CitySpace等公开数据集,也可根据所使用的不同环境采集特定的数据进行训练。并对采集的图像预处理、筛选、数据集增强操作,后将数据分为训练集和测试集进行训练。
外参标定步骤具体为:首先,读取一张用来标定的黑白方格图,然后为40个角点定义坐标,每个角点的Z坐标等于0;然后,通过opencv的角点检测函数,找到图像中40个角点,并可以获取对应图像的像素坐标;接着,使用opencv中的solvePnPRansac函数获得旋转矩阵和平移向量。
S2:通过额外的深度相机收集深度图和原图扩充训练集用于训练。
S3:如图2所示,构建深度估计网络模型,模型整体架构为U-Net的编码器解和码器结构上加上紧密的上下采样连接层,用于减小上采样或下采样中产生的误差,编码器的输入为深度相机采集的视频单帧图像;
S31:编码器基于ResNet-18模型构建,对图像进行下采样升维操作。所述的ResNet-18结构,具体为:第一层为一次7乘7的卷积,然后做Maxpool将长宽变为原来的1/2,通过8个残差块进行下采样,每个残差块中包含两个3乘3卷积两次归一化以及relu,每两个残差快进行一次下采样,并将输出保存用于实现跳跃连接。将ResNet在ImagineNet上预训练,保证训练的效率。
在每张投影图中截取相同区域,该区域包含非共线的束光器边缘区域点,利用图像配准获得第一张之外的所有投影图和第一张投影图间的几何变换矩阵。该步骤具体包括以下子步骤:
(a)将深度相机生成的原视频单帧图像缩放为192*640*3分辨率作为ResNet-18的输入。
(b)残差块结构如图3所示,编码器ResNet-18为5层结构,每一层结构中包含2个残差块,且每一块有分别做两次3乘3卷积以及一次下采样在每次卷积时做一次归一化以及relu,在每一次下采样时,通道数依次为,64,64,128,256,512。而且在每一层结束时收集每一层的特征在上采用时使用。输入图像为192*640*3,第1层输出96*320*64的特征图,第2层输出48*160*64的特征图,第3层输出24*80*128的特征图,第4层输出12*40*256的特征图,最后一层输出6*20*512的特征图,如果输入的是328*1024*3分辨率的图片,计算过程和上述方法一致,最后一层输出10*32*512的特征图。
S32:解码器结构包括通过双线性插值法进行的5层上采样结构的解码模块,解码器结构的第5层和编码器结构的第5层为同一层,记为编/解码模块;每一次上采样时编码器所对应的下采样图像特征以及其他层数的采样特征进行融合采样。具体为:第1层解码模块由第2-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1层的编码器下采样构成,第2层解码模块由第3-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-2层的编码器下采样构成,第3层解码模块由第4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-3层的编码器下采样构成,第4层解码模块由第5层编/解码模块的输出做上采样以及第1-4层的编码器下采样构成,第1-4层解码模块通过Swish激活函数分别输出,然后将每一个尺度的图片的像素点通过双线性插值进行处理得到扩大后的深度图。然后将每一个尺度的图片变为大小为192*640*1的深度图。
双线性插值算法具体如下,x,y为待求像素值的那一点的坐标,Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)为f(x,y)点的临近坐标,需要求f(x,y)点的像素值,已知Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)、x、y的坐标以及Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)各点的像素值f(Q11)、f(Q21)、f(Q12)、f(Q22),首先用关于x方向的单线性插值去分别计算f(x,y1)、f(x,y2)的像素值:
再使用关于y方向的单线性插值计算f(x,y)点的像素值:
所述的Swish激活函数,函数公式如下所示:
f(x)=x.sigmoid(βx)
Swish函数可以看作是介于线性函数与ReLU函数之间的平滑函数。
S4:引入多尺度误差估计,将每一层上采用的图像都通过双线性插值扩大到192*640*1,然后在后四个尺度上分别计算损失,最后将结果除以4以得到最终的损失。多尺度深度估计仅用于训练时用于进行优化网络,在训练结束验证时,只取解码器最后一层输出即可。
通过下面的L1Loss损失函数来计算该网络的损失。
其中其中i代表每一点的坐标,N代表长度*宽度,即图像上的所有像素点;Dt*为通过网络生成的深度图,Dt为通过深度相机获取到的真实深度图,通过该损失函数优化模型,训练20轮从而得到更接近于真实深度的深度图。
S5:将训练好的深度估计模型用于多视频合成。给定一张彩色图像,通过深度估计网络模型生成深度图像Dt*,再通过生成该图片的相机的内外参数,以及虚拟视点下的内外参通过投影公式,即可将2D坐标转化为3D视角下的坐标,然后投影到目标虚拟相机上。
先将2D视角下的图像通过下面的公式投影投到3D坐标中。
其中x,y为原彩色图像的坐标,p为投影后的具体坐标,D(P)为该坐标点的深度,(fx,fy,cx,cy)为该视角下相机内外参。
通过下面公式将3D坐标投影到2D图像中
其中,X,Y,Z为投影的3D坐标,此时的(fx2,fy2,Cx2,Cy2)为虚拟视点下的相机内外参。
S6:通过投影后可得到虚拟视点的深度图如图5所示,利用深度图将虚拟视点图像中的整数坐标平移到参考视点位置下的坐标,此时也可能不是整数,而是浮点数坐标。
S7:取参考视点图像浮点数坐标附近4个点的像素值,用双线性插值算出对应虚拟视点图像位置处的像素值即可。
S8:此时在另一个视点下,再做一次深度估计以及投影,再一次的投影到该虚拟视点下。
S9:获取两张该虚拟视点的图像,其中一张用于填充另一张的空洞以及丢失的信息,再对图像进行滤波处理,得到更平滑的图像如图6所示。所述的图像滤波处理,使用opencv中的高斯滤波GaussianBlur来进行滤波操作。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (5)
1.一种基于深度学习以及反向映射实现的单目多视点视频合成方法,其特征在于,该方法包括以下步骤:
S1:通过三个含内参的相机采集视频;其中位于中间位置相机为虚拟视点待生产,仅获取内参数,其余两个相机获取视频连续帧图片以及相机内参,用于深度图训练;通过相机标定法获取三个相机的旋转平移矩阵;
S2:通过额外的深度相机采集深度图和原图扩充训练集用于训练;
S3:构建深度估计网络模型,模型整体架构为在U-Net的编码器解码器的结构上加上紧密的上下采样连接层,用于减小上采样或下采样中产生的误差,编码器的输入为深度相机采集的视频单帧图像;
S31:编码器结构为5层结构,且每一层有分别做两次卷积操作以及一次下采样操作,在每次卷积时做一次归一化以及relu,在每一层结束时收集每一层的特征在解码器上采样时使用;
S32:解码器结构包括基于双线性插值法的5层上采样结构的解码模块,解码器结构的第5层和编码器结构的第5层为同一层,记为编/解码模块;每一次上采样时编码器所对应的下采样图像特征以及其他层数的采样特征进行融合采样;具体为:第1层解码模块由第2-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1层的编码器下采样构成,第2层解码模块由第3-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-2层的编码器下采样构成,第3层解码模块由第4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-3层的编码器下采样构成,第4层解码模块由第5层编/解码模块的输出做上采样以及第1-4层的编码器下采样构成,第5层由自己本身构成,第1-4层解码模块通过Swish激活函数分别输出,然后将每一个尺度的图片的像素点通过双线性插值进行处理得到扩大后的深度图;
S4:引入多尺度误差估计,对编码器1~4层模块的输出分别用L1Loss损失函数计算损失,最后将结果除以4以得到最终的损失用于训练网络模型;
S5:将训练好的深度估计网络模型用于多视点视频合成;给定一张彩色图像,通过深度估计网络模型生成深度图像Dt*,再通过生成该图片的相机的内外参数,以及虚拟视点下的内外参通过投影公式,将2D坐标转化为3D视角下的坐标,然后投影到目标虚拟相机上;
S6:通过投影后得到虚拟视点的深度图,利用深度图将虚拟视点图像中的整数坐标平移到参考视点位置下的浮点数坐标;取参考视点图像浮点数坐标附近4个点的像素值,用双线性插值计算出对应虚拟视点图像位置处的像素值;并在另一个视点下,用同样的方法投影到虚拟视点下,计算虚拟视点图像对应位置处的像素值;
S7:根据得到的两张虚拟视点的图像,其中一张用于填充另一张的空洞以及丢失的信息,再对图像进行滤波处理,得到更平滑的图像。
2.根据权利要求1所述的一种基于深度学习以及反向映射实现的单目多视点视频合成方法,其特征在于,步骤S31中,编码器的输入为将深度相机生成的原视频单帧图像缩放为192*640*3分辨率或者328*1024*3分辨率的图片;下采样过程中每次高度宽度减小为原来的一半,在每一次下采样时,通道数依次为,64,64,128,256,512,最后一层降为6*20*512或者10*32*512的特征图。
3.根据权利要求1所述的一种基于深度学习以及反向映射实现的单目多视点视频合成方法,其特征在于,步骤S32中,双线性插值算法具体如下,x,y为待求像素值的那一点的坐标,Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)为f(x,y)点的临近坐标,需要求f(x,y)点的像素值,已知Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)、x、y的坐标以及Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)各点的像素值f(Q11)、f(Q21)、f(Q12)、f(Q22),首先用关于x方向的单线性插值去分别计算f(x,y1)、f(x,y2)的像素值:
再使用关于y方向的单线性插值计算f(x,y)点的像素值:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111217095.9A CN114004773A (zh) | 2021-10-19 | 2021-10-19 | 基于深度学习以及反向映射实现的单目多视点视频合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111217095.9A CN114004773A (zh) | 2021-10-19 | 2021-10-19 | 基于深度学习以及反向映射实现的单目多视点视频合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114004773A true CN114004773A (zh) | 2022-02-01 |
Family
ID=79923185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111217095.9A Withdrawn CN114004773A (zh) | 2021-10-19 | 2021-10-19 | 基于深度学习以及反向映射实现的单目多视点视频合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114004773A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023235273A1 (en) * | 2022-06-02 | 2023-12-07 | Leia Inc. | Layered view synthesis system and method |
-
2021
- 2021-10-19 CN CN202111217095.9A patent/CN114004773A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023235273A1 (en) * | 2022-06-02 | 2023-12-07 | Leia Inc. | Layered view synthesis system and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10848743B2 (en) | 3D Camera calibration for adjustable camera settings | |
CN101883291B (zh) | 感兴趣区域增强的视点绘制方法 | |
CN111325693B (zh) | 一种基于单视点rgb-d图像的大尺度全景视点合成方法 | |
CN101916455A (zh) | 一种高动态范围纹理三维模型的重构方法及装置 | |
Nielsen | Surround video: a multihead camera approach | |
CN113763301B (zh) | 一种减小错切概率的三维图像合成方法和装置 | |
CN116563459A (zh) | 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法 | |
CN109788270B (zh) | 3d-360度全景图像生成方法及装置 | |
WO2018052100A1 (ja) | 画像処理装置、画像処理方法、画像処理プログラム | |
KR20080034419A (ko) | 3d 영상 생성 및 디스플레이 시스템 | |
CN104796624A (zh) | 一种光场编辑传播方法 | |
CN114004773A (zh) | 基于深度学习以及反向映射实现的单目多视点视频合成方法 | |
AU2008344047B2 (en) | Method for displaying a virtual image | |
CN108616746A (zh) | 基于深度学习的2d全景图像转3d全景图像的方法 | |
Fachada et al. | View synthesis tool for VR immersive video | |
CN111629194B (zh) | 一种基于神经网络的全景视频转6dof视频的方法及系统 | |
Ramachandran et al. | Multiview synthesis from stereo views | |
JP3387900B2 (ja) | 画像処理方法及び装置 | |
Yu et al. | Dynamic depth of field on live video streams: A stereo solution | |
Knorr et al. | Super-resolution stereo-and multi-view synthesis from monocular video sequences | |
Zhao et al. | Stripe sensitive convolution for omnidirectional image dehazing | |
Salehi et al. | Alignment of cubic-panorama image datasets using epipolar geometry | |
CN114898120B (zh) | 一种基于卷积神经网络的360度图像显著目标检测方法 | |
CN113821107B (zh) | 一种实时、自由视点的室内外裸眼3d系统 | |
CN114219900B (zh) | 基于混合现实眼镜的三维场景重建方法、重建系统和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220201 |