CN114004773A

CN114004773A - 基于深度学习以及反向映射实现的单目多视点视频合成方法

Info

Publication number: CN114004773A
Application number: CN202111217095.9A
Authority: CN
Inventors: 柴春来; 张仕锦; 李传洲; 楼宇宽
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-02-01

Abstract

本发明公开了一种基于深度学习以及反向映射实现的单目多视点视频合成方法，主要包括相机信息收集部分、模型训练部分和视频合成部分。通过收集单目相机生成的视频以及相机的内参，估计出该相机视角下的深度图，再通过给定虚拟视点下与相机的相对外参，通过反向映射算法，从而实现中间的任意一点虚拟相机视角下的视频合成。本发明方法主要用于大场景下用于监控，直播等环境中，大大节省了资源成本，通过少量的相机实现多视点的视频呈现。

Description

基于深度学习以及反向映射实现的单目多视点视频合成方法

技术领域

本发明属于单目多视点视频合成技术领域，具体涉及一种基于深度学习以及反向映射实现的单目多视点视频合成方法。

背景技术

自由视点视频可以向观看者提供任意的观看角度和位置,因此具有非常出色的人机交互体验和观看浸入感,被认为是未来数字电视的主要发展方向之一。自由视点视频可以广泛应用于体育赛事转播、文艺演出、互动课程等娱乐与教育行业,也可以应用于临床手术、军事战略研究等社会工作与国防科技领域。自由视点视频的发展能够提高社会的生产效率,改变人类的生活,它的发展具有重大意义。然而,自由视点视频的数据量会随着可观看视点数量的增加成几何倍数的增长,这给视频的采集、存储和传输等带来了巨大的压力。在众多虚拟视点合成方法中,基于深度信息的虚拟视点合成技术因为运算消耗低、合成效果逼真得到了较多的关注。目前多视点视频合成领域的问题是，深度图获取困难，成本高昂，而且获取到的深度图不够准确，为了解决此问题，我们引入了深度学习来获取更为真实的深度图，通过准备好的训练样本，残差网络以及编码器解码器结构优化我们的深度估计神经网络。后通过反向映射投影，取得效果更好的图像。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于深度学习以及反向映射实现的单目多视点视频合成方法。

本发明的目的是通过以下技术方案来实现的：一种基于深度学习以及反向映射实现的单目多视点视频合成方法，该方法包括以下步骤：

S1：通过三个含内参的相机采集视频；其中位于中间位置相机为虚拟视点待生产，仅获取内参数，其余两个相机获取视频连续帧图片以及相机内参，用于深度图训练；通过相机标定法获取三个相机的旋转平移矩阵；

S2：通过额外的深度相机采集深度图和原图扩充训练集用于训练；

S3：构建深度估计网络模型，模型整体架构为在U-Net的编码器解码器的结构上加上紧密的上下采样连接层，用于减小上采样或下采样中产生的误差，编码器的输入为深度相机采集的视频单帧图像；

S31：编码器结构为5层结构，且每一层有分别做两次卷积操作以及一次下采样操作，在每次卷积时做一次归一化以及relu，在每一层结束时收集每一层的特征在解码器上采样时使用；

S32：解码器结构包括基于双线性插值法的5层上采样结构的解码模块，解码器结构的第5层和编码器结构的第5层为同一层，记为编/解码模块；每一次上采样时编码器所对应的下采样图像特征以及其他层数的采样特征进行融合采样；具体为：第1层解码模块由第2-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1层的编码器下采样构成，第2层解码模块由第3-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-2层的编码器下采样构成，第3层解码模块由第4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-3层的编码器下采样构成，第4层解码模块由第5层编/解码模块的输出做上采样以及第1-4层的编码器下采样构成，第5层由自己本身构成，第1-4层解码模块通过Swish激活函数分别输出，然后将每一个尺度的图片的像素点通过双线性插值进行处理得到扩大后的深度图；

S4：引入多尺度误差估计，对编码器1～4层模块的输出分别用L1Loss损失函数计算损失，最后将结果除以4以得到最终的损失用于训练网络模型；

S5：将训练好的深度估计网络模型用于多视点视频合成；给定一张彩色图像，通过深度估计网络模型生成深度图像Dt*，再通过生成该图片的相机的内外参数，以及虚拟视点下的内外参通过投影公式，将2D坐标转化为3D视角下的坐标，然后投影到目标虚拟相机上；

S6：通过投影后得到虚拟视点的深度图，利用深度图将虚拟视点图像中的整数坐标平移到参考视点位置下的浮点数坐标；取参考视点图像浮点数坐标附近4个点的像素值，用双线性插值计算出对应虚拟视点图像位置处的像素值；并在另一个视点下，用同样的方法投影到虚拟视点下，计算虚拟视点图像对应位置处的像素值；

S7：根据得到的两张虚拟视点的图像，其中一张用于填充另一张的空洞以及丢失的信息，再对图像进行滤波处理，得到更平滑的图像。

进一步地，步骤S31中，编码器的输入为将深度相机生成的原视频单帧图像缩放为192*640*3分辨率或者328*1024*3分辨率的图片；下采样过程中每次高度宽度减小为原来的一半，在每一次下采样时，通道数依次为，64，64，128，256，512，最后一层降为6*20*512或者10*32*512的特征图。

进一步地，步骤S32中，双线性插值算法具体如下，x,y为待求像素值的那一点的坐标，Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)为f(x,y)点的临近坐标，需要求f(x,y)点的像素值，已知Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)、x、y的坐标以及Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)各点的像素值f(Q11)、f(Q21)、f(Q12)、f(Q22)，首先用关于x方向的单线性插值去分别计算f(x,y1)、f(x,y2)的像素值：

再使用关于y方向的单线性插值计算f(x,y)点的像素值：

进一步地，步骤S4中，L1Loss损失函数具体计算过程如下：

其中i代表每一点的坐标，N代表长度*宽度，即图像上的所有像素点；Dt*为通过深度估计网络模型生成的深度图，Dt为通过深度相机获取到的真实深度图，通过损失函数优化模型。

进一步地，步骤S5中，先将2D视角下的图像通过下面的公式π^-1投影投到3D坐标中；

其中x,y为原彩色图像的坐标，p为投影后的具体坐标，D(P)为该坐标点对应的深度，(fx,fy,cx,cy)为该视角下相机内外参；

通过下面公式π将3D坐标投影到2D图像中；

其中，X,Y,Z为投影的3D坐标，此时的(fx₂,fy₂,Cx₂,Cy₂)为虚拟视点下的相机内外参。

本发明的有益效果：

通过该发明方法，可以获取少量的摄像头设备，获取到更多视点下的虚拟图像，可灵活运用在室外需要摄像头密集部署的场景，如体育场，广场等。大大的减少了成本。

附图说明

图1为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的流程图；

图2为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的UNet架构图；

图3为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的ResNet-18中残差块的结构图；

图4为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的深度估计网络流程图；

图5为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的深度学习生成的深度图；

图6为本发明一个实施例的基于深度学习以及反向映射实现的单目多视点视频合成方法的虚拟视点图像；

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1和图4所示，本发明提供了一种基于深度学习以及反向映射实现的单目多视点视频合成方法，包括如下步骤：

S1：进行样本采集。通过三个含内参的相机采集视频。其中中间位置相机为虚拟视点待生产，仅获取内外参即可，其余两个相机获取视频连续帧图片以及相机内参，用于深度图训练；通过相机标定法获取三个相机的旋转平移矩阵(外参)，内参为相机出场设置获取。。或者使用公开数据如KITTI，CitySpace等公开数据集，也可根据所使用的不同环境采集特定的数据进行训练。并对采集的图像预处理、筛选、数据集增强操作，后将数据分为训练集和测试集进行训练。

外参标定步骤具体为：首先，读取一张用来标定的黑白方格图，然后为40个角点定义坐标，每个角点的Z坐标等于0；然后，通过opencv的角点检测函数，找到图像中40个角点，并可以获取对应图像的像素坐标；接着，使用opencv中的solvePnPRansac函数获得旋转矩阵和平移向量。

S2：通过额外的深度相机收集深度图和原图扩充训练集用于训练。

S3：如图2所示，构建深度估计网络模型，模型整体架构为U-Net的编码器解和码器结构上加上紧密的上下采样连接层，用于减小上采样或下采样中产生的误差，编码器的输入为深度相机采集的视频单帧图像；

S31：编码器基于ResNet-18模型构建，对图像进行下采样升维操作。所述的ResNet-18结构，具体为：第一层为一次7乘7的卷积，然后做Maxpool将长宽变为原来的1/2，通过8个残差块进行下采样，每个残差块中包含两个3乘3卷积两次归一化以及relu，每两个残差快进行一次下采样，并将输出保存用于实现跳跃连接。将ResNet在ImagineNet上预训练，保证训练的效率。

在每张投影图中截取相同区域，该区域包含非共线的束光器边缘区域点，利用图像配准获得第一张之外的所有投影图和第一张投影图间的几何变换矩阵。该步骤具体包括以下子步骤：

(a)将深度相机生成的原视频单帧图像缩放为192*640*3分辨率作为ResNet-18的输入。

(b)残差块结构如图3所示，编码器ResNet-18为5层结构，每一层结构中包含2个残差块，且每一块有分别做两次3乘3卷积以及一次下采样在每次卷积时做一次归一化以及relu，在每一次下采样时，通道数依次为，64，64，128，256，512。而且在每一层结束时收集每一层的特征在上采用时使用。输入图像为192*640*3，第1层输出96*320*64的特征图，第2层输出48*160*64的特征图，第3层输出24*80*128的特征图，第4层输出12*40*256的特征图，最后一层输出6*20*512的特征图，如果输入的是328*1024*3分辨率的图片，计算过程和上述方法一致，最后一层输出10*32*512的特征图。

S32：解码器结构包括通过双线性插值法进行的5层上采样结构的解码模块，解码器结构的第5层和编码器结构的第5层为同一层，记为编/解码模块；每一次上采样时编码器所对应的下采样图像特征以及其他层数的采样特征进行融合采样。具体为：第1层解码模块由第2-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1层的编码器下采样构成，第2层解码模块由第3-4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-2层的编码器下采样构成，第3层解码模块由第4层解码模块和第5层编/解码模块的解码器的输出做上采样以及第1-3层的编码器下采样构成，第4层解码模块由第5层编/解码模块的输出做上采样以及第1-4层的编码器下采样构成，第1-4层解码模块通过Swish激活函数分别输出，然后将每一个尺度的图片的像素点通过双线性插值进行处理得到扩大后的深度图。然后将每一个尺度的图片变为大小为192*640*1的深度图。

双线性插值算法具体如下，x,y为待求像素值的那一点的坐标，Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)为f(x,y)点的临近坐标，需要求f(x,y)点的像素值，已知Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)、x、y的坐标以及Q11(x1,y1)、Q21(x2,y1)、Q12(x1,y2)、Q22(x2,y2)各点的像素值f(Q11)、f(Q21)、f(Q12)、f(Q22)，首先用关于x方向的单线性插值去分别计算f(x,y1)、f(x,y2)的像素值：

再使用关于y方向的单线性插值计算f(x,y)点的像素值：

所述的Swish激活函数，函数公式如下所示：

f(x)＝x.sigmoid(βx)

Swish函数可以看作是介于线性函数与ReLU函数之间的平滑函数。

S4：引入多尺度误差估计，将每一层上采用的图像都通过双线性插值扩大到192*640*1，然后在后四个尺度上分别计算损失，最后将结果除以4以得到最终的损失。多尺度深度估计仅用于训练时用于进行优化网络，在训练结束验证时，只取解码器最后一层输出即可。

通过下面的L1Loss损失函数来计算该网络的损失。

其中其中i代表每一点的坐标，N代表长度*宽度，即图像上的所有像素点；Dt*为通过网络生成的深度图，Dt为通过深度相机获取到的真实深度图，通过该损失函数优化模型，训练20轮从而得到更接近于真实深度的深度图。

S5：将训练好的深度估计模型用于多视频合成。给定一张彩色图像，通过深度估计网络模型生成深度图像Dt*，再通过生成该图片的相机的内外参数，以及虚拟视点下的内外参通过投影公式，即可将2D坐标转化为3D视角下的坐标，然后投影到目标虚拟相机上。

先将2D视角下的图像通过下面的公式投影投到3D坐标中。

其中x,y为原彩色图像的坐标，p为投影后的具体坐标，D(P)为该坐标点的深度，(fx,fy,cx,cy)为该视角下相机内外参。

通过下面公式将3D坐标投影到2D图像中

S6：通过投影后可得到虚拟视点的深度图如图5所示，利用深度图将虚拟视点图像中的整数坐标平移到参考视点位置下的坐标，此时也可能不是整数，而是浮点数坐标。

S7：取参考视点图像浮点数坐标附近4个点的像素值，用双线性插值算出对应虚拟视点图像位置处的像素值即可。

S8：此时在另一个视点下，再做一次深度估计以及投影，再一次的投影到该虚拟视点下。

S9：获取两张该虚拟视点的图像，其中一张用于填充另一张的空洞以及丢失的信息，再对图像进行滤波处理，得到更平滑的图像如图6所示。所述的图像滤波处理，使用opencv中的高斯滤波GaussianBlur来进行滤波操作。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于深度学习以及反向映射实现的单目多视点视频合成方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习以及反向映射实现的单目多视点视频合成方法，其特征在于，步骤S31中，编码器的输入为将深度相机生成的原视频单帧图像缩放为192*640*3分辨率或者328*1024*3分辨率的图片；下采样过程中每次高度宽度减小为原来的一半，在每一次下采样时，通道数依次为，64，64，128，256，512，最后一层降为6*20*512或者10*32*512的特征图。

3.根据权利要求1所述的一种基于深度学习以及反向映射实现的单目多视点视频合成方法，其特征在于，步骤S32中，双线性插值算法具体如下，x，y为待求像素值的那一点的坐标，Q11(x1，y1)、Q21(x2，y1)、Q12(x1，y2)、Q22(x2，y2)为f(x，y)点的临近坐标，需要求f(x，y)点的像素值，已知Q11(x1，y1)、Q21(x2，y1)、Q12(x1，y2)、Q22(x2，y2)、x、y的坐标以及Q11(x1，y1)、Q21(x2，y1)、Q12(x1，y2)、Q22(x2，y2)各点的像素值f(Q11)、f(Q21)、f(Q12)、f(Q22)，首先用关于x方向的单线性插值去分别计算f(x，y1)、f(x，y2)的像素值：

再使用关于y方向的单线性插值计算f(x，y)点的像素值：

4.根据权利要求1所述的一种基于深度学习以及反向映射实现的单目多视点视频合成方法，其特征在于，步骤S4中，L1Loss损失函数具体计算过程如下：

5.根据权利要求1所述的一种基于深度学习以及反向映射实现的单目多视点视频合成方法，其特征在于，步骤S5中，先将2D视角下的图像通过下面的公式π^-1投影投到3D坐标中；

其中x，y为原彩色图像的坐标，p为投影后的具体坐标，D(P)为该坐标点对应的深度，(fx，fy，cx，cy)为该视角下相机内外参；

通过下面公式π将3D坐标投影到2D图像中；

其中，X，Y，Z为投影的3D坐标，此时的(fx₂，fy₂，Cx₂，Cy₂)为虚拟视点下的相机内外参。