CN112543317B - 高分辨率单目2d视频到双目3d视频的转制方法 - Google Patents

高分辨率单目2d视频到双目3d视频的转制方法 Download PDF

Info

Publication number
CN112543317B
CN112543317B CN202011395559.0A CN202011395559A CN112543317B CN 112543317 B CN112543317 B CN 112543317B CN 202011395559 A CN202011395559 A CN 202011395559A CN 112543317 B CN112543317 B CN 112543317B
Authority
CN
China
Prior art keywords
depth map
depth
image
network
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011395559.0A
Other languages
English (en)
Other versions
CN112543317A (zh
Inventor
姚莉
李林鑫
杨俊宴
吴含前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011395559.0A priority Critical patent/CN112543317B/zh
Publication of CN112543317A publication Critical patent/CN112543317A/zh
Application granted granted Critical
Publication of CN112543317B publication Critical patent/CN112543317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • H04N13/268Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明公开一种高分辨率单目2D视频到双目3D视频的转制方法,在深度信息提取阶段,使用现有的3D电影作为源数据集训练一个U型结构的卷积网络,得到性能优越的网络模型对2D视频进行逐帧的深度估计,利用小型的神经网络对深度图进行保边平滑的优化处理。在视点合成阶段,提出无相机参数的基于深度图的视点合成算法,采用对称式的由中间向两边渲染的策略进行左右虚拟视点合成。最后,在图像修复阶段,提出了结合时域信息的基于块匹配的图像修复算法,对左右视点中的裂痕空洞进行填充修复。本发明能够在原2D视频无任何相关参数信息的前提下,对其进行2D到3D的视频转制,不仅可以有效地处理高分辨率画面,且转制效果好、速度快。

Description

高分辨率单目2D视频到双目3D视频的转制方法
技术领域
本发明涉及一种高分辨率单目2D视频到双目3D视频的转制方法,属于图像处理、计算机视觉和计算机图形学领域。
背景技术
近些年来多媒体相关技术和硬件设备快速发展,市场上推出了各种3D和VR设备,如VR眼镜、3D屏幕手机和3D显示器等,与此同时用户对于观看3D视频的娱乐需求也日益增长。然而对于普通的具有拍摄功能的移动设备,只能拍摄普通的单目2D视频,目前市场上缺乏将2D视频转制为3D视频的技术。无论是3D电影荧幕,VR眼镜,或是3D屏幕手机和显示器,都需要有丰富多样的双目3D视频资源作为支撑,来为用户提供具有立体感、沉浸感和视觉效果的3D视频观看体验。单目2D视频到双目3D视频的转制技术正是解决这一问题的关键技术,可以极大地快速地丰富3D视频资源库。
目前主流的3D内容制作分为两种:一种是主动式拍摄获取方法,一种是被动式计算机视觉计算方法。但是主动式方法对双目摄像镜头的要求很高,要保证镜头、光圈、色度一致,两路信号要同步,这使得立体拍摄的设备成本极高。被动式方法是通过后期的2D转制3D技术来完成,即对单目2D视频通过计算机视觉、计算机图形学的方法估算出双目3D视频,这样两路视频输入显示设备,可以获得良好的3D视觉体验效果。
2D视频转制3D视频,需要先有2D视频每帧画面的深度信息作为基础,其次通过基于深度信息的虚拟视点合成方法合成虚拟视点,然后对虚拟视点中的空洞和瑕疵进行填充和修复。对于1080P的高分辨率视频,图像中的像素数量极大,转制技术需要保证输出的双目3D视频同样是原先的高分辨率,并且纹理、色彩和语义信息准确而合理,观看时无模糊、目眩和失真等视觉感觉,画面及内容需要使观看者在感到自然、流畅的基础上,具有立体感、沉浸感的视觉享受。
高分辨率的单目2D视频到双目3D立体视频的自动化转制,目前主要面临以下几个难点:
1、视频画面的深度信息估计不够准确,虚拟视点合成需要质量很高的深度图,其所需深度图需要达到像素级的准确度和平滑度。
2、基于深度信息的虚拟视点合成,由于普通的视频没有相机参数等必要信息,因此进一步提高了对深度图质量的要求,增大了虚拟视点合成的难度。
3、视频是由连续的画面构成的,因此对于双目的虚拟视点的空洞瑕疵的填充和修复,不仅要在单帧画面上表现得清晰细腻和无伪影,而且要在画面连续播放时连贯自然,无整体上和局部上的色彩、纹理的抖动和异变。
4、对于高分辨率的视频画面,其深度信息提取、虚拟视点合成、图像空洞修复难度很大,不仅要保证2D-3D转制的效果,而且要考虑计算机硬件的性能上限和处理速度。
发明内容
本发明解决了上述问题和难点,提供了一种针对高分辨率单目2D视频到双目3D视频的转制方法,这种方法能够对高分辨率的任意的2D视频,在无相机参数和其他信息的前提下,无需人工操作的情况下,全自动地将输入的单目2D视频转制为3D视频,且保持原分辨率与画质效果。
为了实现上述目的,本发明的一种针对高分辨率单目2D视频到双目3D视频的转制方法,包括如下步骤:
步骤1:从现有的3D电影中提取左右帧,采用SGBM算法从中提取和构建RGBD数据集;
步骤2:构建设计U型结构的卷积神经网络及特定的损失函数,在RGBD数据集上对深度估计网络进行训练至收敛;
步骤3:从游戏引擎3D场景模型采集高精度深度图,经过预处理得到粗糙化的深度图FineCoarseDepth数据集,所述预处理包括扭曲、模糊化处理;
步骤4:构建设计U型结构的深度图优化网络及特定的损失函数,在步骤3的FineCoar seDepth数据集上对深度图优化网络进行训练至收敛;
步骤5:将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络,输出得到低分辨率的深度图;
步骤6:将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络,输出得到高分辨率高质量的深度图;
步骤7:进行无相机参数的虚拟视点合成,将中间视点的像素点反坐标变换到Z-Buffer空间,然后进行从Z-Buffer空间到虚拟左视点的投影变换,得到虚拟左视点;再执行从Z-Buffer空间到虚拟右视点的投影变换,得到虚拟右视点;
步骤8:采用结合时域的块匹配图像修复算法,对虚拟左视点和虚拟右视点进行空洞填充和修复;
步骤9:将修复后的虚拟左视点和虚拟右视点进行同帧合并,连续帧的双目视图经过视频合成与压缩,得到双目3D视频。
步骤1中所述从现有的3D电影中提取左右帧的过程中,需要先对现有的3D电影进行双目立体匹配。
步骤2中所述构建设计U型结构的卷积神经网络,是指构建Encoder-Decoder式的U型结构的卷积神经网络,步骤2中所述构建设计特定的损失函数,在RGBD数据集上对深度估计网络进行训练至收敛,是指设计与图像分割结果相结合的损失函数进行训练,利用训练收敛的模型,从分辨率为1920*1080的高分辨率的2D视频帧画面中先提取出分辨率为512*288的低分辨率的深度图;
损失函数
Figure BDA0002814928290000031
的设计如下所示:
Figure BDA0002814928290000032
其中:
Figure BDA0002814928290000033
为对深度图中深度值的主要约束;
Figure BDA0002814928290000034
为对深度图在不同语义区域之间的高频信息的尺度不变性的约束;
Figure BDA0002814928290000035
Figure BDA0002814928290000036
为对深度图在整体区域上的低频信息和平滑性的约束,称
Figure BDA0002814928290000037
为一阶平滑误差,
Figure BDA0002814928290000038
为二阶平滑误差;
Figure BDA0002814928290000039
为对图像中特定的语义区域内深度值约束,α1、α2、α4、α4分别为上述四个损失项约束的系数超参数。
步骤5中所述将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络,输出得到低分辨率的深度图的具体方法是:
在网络训练过程中,促使网络的输出深度值与训练集中的Ground-Truth在数据的绝对值上趋于一致,采用在log域上计算深度值误差的方式,使其具有深度值的相对不变性;引入高频信息的约束项,促使深度图的高频变化与RGB原图一致;采用深度图的平滑性误差,促使深度值在整体上趋于平滑和稳定;引入图像分割的结果计算特定语义区域内的深度值误差,促使每个物体区域内深度值的准确性。
其中
Figure BDA00028149282900000310
为对深度图中深度值的主要约束,令I为深度图,p为深度图上的一个像素点,N为该深度图中像素点的数量(518*288),
Figure BDA00028149282900000311
为网络输出的深度图中的p点的深度值,Dgt(p)为数据集里真实的深度值Ground-Truth,R(p)定义为在log域上的
Figure BDA00028149282900000312
与Dgt(p)之间的差值,则对深度图中深度值的主要约束
Figure BDA00028149282900000313
的构成如下:
Figure BDA00028149282900000314
Figure BDA00028149282900000315
其中
Figure BDA00028149282900000316
为对深度图在不同语义区域之间的高频信息的尺度不变性的约束,在网络训练过程中,促使网络的输出深度值在不同物体或其他语义区域之间呈现明显的差异,加强深度图的深度层次关系以及高频信息,对深度图在多个缩放尺度上计算其x方向和y方向的图像梯度误差;
令Is为特定尺度s下的深度图,p为其中的一个像素点,Ns为在特定尺度下图像的像素数量,Rs(p)即为在s尺度下计算的R(p),
Figure BDA0002814928290000041
Figure BDA0002814928290000042
分别为x和y方向的梯度计算,则
Figure BDA0002814928290000043
的构成表示如下:
Figure BDA0002814928290000044
令Is为特定尺度s下的深度图,p为深度图上的一个像素点,Ns为该特定尺度下深度图中的像素数量,
Figure BDA0002814928290000045
代表对深度图进行梯度误差计算其同时包含了x方向与y方向,为两个方向的梯度值之和,Is(p)表示p在深度图与2D视频画面对应的RGB图像的像素值,
Figure BDA0002814928290000046
网络输出深度图中像素点的深度值,则一阶平滑误差
Figure BDA0002814928290000047
和二阶平滑误差
Figure BDA0002814928290000048
的构成分别如下,在
Figure BDA0002814928290000049
中它们共享系数超参数α3
Figure BDA00028149282900000410
Figure BDA00028149282900000411
其中
Figure BDA00028149282900000412
为对深度图在特定语义区域之内的深度值的约束,在网络训练过程中,促使网络的输出深度值在特定的语义区域之内保有准确性和一致性,特定语义区域包含人体、动物、车辆和建筑物的语义目标;
利用MSCOCO上训练的Mask-RCNN卷积网络算法对2D视频帧进行图像分割,对其中各显著性区域进行标记和生成掩膜图mask,结合深度图对其特定区域进行深度值的L1误差计算:
令T为该帧画面中经图像分割后的特定语义区域的数量,Mk为特定语义区域的二值掩膜区域mask,每帧画面有T个掩膜区域,k为掩膜图的序号(从0到T-1),Mk即表示序号为k的掩膜区域,N表示该掩膜区域内的像素总数,*为二值掩膜图与网络输出深度图的逐像素之间的与运算,则
Figure BDA00028149282900000413
的构成表示如下:
Figure BDA00028149282900000414
步骤4中所述构建设计U型结构的深度图优化网络及特定的损失函数,在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛,具体方法是:
构建用于深度图优化的卷积神经网络,设计基于L1误差的损失函数,利用FineDepth作为CoarseDepth的Ground-Truth的监督信息,对网络进行训练和调参,得到收敛后的模型,在网络底部输入低分辨率的深度图CoarseDepth,而在网络顶部输入的2D视频帧的RGB图像经过卷积层下采样,与其叠加进行引导,一同经过上采样层,网络输出上采样后的高分辨率的深度图,损失函数的构成表示如下:
Figure BDA0002814928290000051
其中
Figure BDA0002814928290000052
为对深度值的直接约束,促使网络输出的高分辨率深度图中的深度值
Figure BDA0002814928290000053
与输入的监督信息,即低分辨率深度图中的深度值Dgt(i,j))趋近,
Figure BDA0002814928290000054
为多尺度的平滑性约束;β1、β2分别为
Figure BDA0002814928290000055
Figure BDA0002814928290000056
的系数超参数。
步骤6中所述将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络,输出得到高分辨率高质量的深度图的具体方法是:
对网络输出的深度图在多尺度上进行的梯度计算,促使输出的深度图在整体上平滑且细腻,
Figure BDA0002814928290000057
Figure BDA0002814928290000058
的构成表示如下:
Figure BDA0002814928290000059
Figure BDA00028149282900000510
其中i和j表示深度图中坐标(i,j)的像素点,
Figure BDA00028149282900000511
表示网络输出的深度图中该像素点处的深度值,Dgt(i,j)表示Ground-Truth监督信息的深度图中该像素点处的深度值,其中深度图的梯度计算Gh[ξ],对其在不同尺度下的计算规则进行统一,表示如下:
Figure BDA00028149282900000512
其中h为尺度因子,分别表示跨越{1,2,4,8,16}个像素进行梯度计算,D(i,j)表示深度图中的像素值,其既是网络输出的深度图,也是Ground-Truth监督信息的深度图。
步骤7的具体方法是:设定观看者的左眼位置为(-e,0),右眼位置为(e,0),显示器平面在(0,D)水平面处,Tr是观察者右眼虚像在显示平面上的位置,Tl是观察者左眼虚像在显示器上的位置,对于图像中的像素点P,当其深度值为d,由双目成像系统原理得到其关系:
Figure BDA00028149282900000513
Figure BDA00028149282900000514
其中Dispixel为左右视点之间的视差,e为双眼基线距离的半值,D为人眼与显示屏幕的之间的距离,d为深度图中该像素点的深度值,Wscreen为显示器的像素尺寸,其取决于显示平面的尺寸与分辨率,单位为毫米/像素;
此时,将像素点与其深度信息结合于Z-Buffer空间中,然后分别向左、向右合成左、右虚拟视点,双眼虚像像素位移关系表示如下:
Figure BDA0002814928290000061
Figure BDA0002814928290000062
其中Rm表示中间视点,即原视频帧的RGB图像;而Rl和Rr分别表示虚拟左、右视点;R、G、B之间形式是一致的,分别表示RGB图像的三个色彩通道;w、h表示像素点在图像中的横、纵坐标。
步骤8中所述采用结合时域的块匹配图像修复算法,对虚拟左视点和虚拟右视点进行空洞填充和修复的具体过程如下:对合成得到的虚拟左视点和虚拟右视点,将其中的空洞区域标记,对不同区域计算优先权,结合时域上前后帧同搜索块的纹理信息对其进行检验与修复,然后在本帧画面中继续搜索最佳匹配块,利用最佳匹配块对空洞区域进行修复,若空洞未修复完全,则重复前过程,直至图像中空洞修复完毕;
所述结合时域的块匹配图像修复算法,具体方法为:
10.1定义优先权计算:
Figure BDA0002814928290000063
Figure BDA0002814928290000064
首先令空洞区域为Ω,整幅图像为Ι,已知区域(即非空洞区域)为Φ,即满足关系空洞区域Ω=I–Φ,在上述优先权计算中,其中P(p)表示优先权,C(p)为置信度项,D(p)为数据项,C(q)为计算像素点q的置信度,当q位于目标区域则为0,当位于已知区域则为1;time表示修复的次数,N是一个固定常数取值100,|Ψp|表示目标块Ψp的面积,
Figure BDA0002814928290000065
表示p点的等照度线向量,np表示了待修补区域的边界的单位外法向量,α表示归一化因子取值255;
10.2利用时域的帧间信息首先确定帧间的信息相关性,若f(x,y)为当前帧图像,g(x,y)为选取的某一帧参考图像,则分别用Rf(x,y)和Rg(x,y)表示两幅图像,将两幅图像均划分成多个子块,然后为当前帧图像中的每一个子块Hf寻找参考图像中相匹配的块Hg,计算子块Hf与子块Hg中心点间的位移矢量,计算其平均值为E,若E<T,则认为参考图像中存在可用信息,此时冗余信息区域为Rf(x,y)-Rg(x,y),若E>T,则认为此时场景发生切换,参考图像中不包含可用信息,选择下一帧继续比较,T为阈值;
10.3在使用帧间信息对当前帧图像进行修复时,为方便计算,采用正向和逆向两种顺序进行修复,当正向修复时,在当前帧图像f(x,y,t)之前的N幅图像中选取可用信息,即f(x,y,t-i),i∈[1,N],确定N幅图像中是否存在冗余信息区域,并计算R(x,y,t)-R(x,y,t-i),i∈[1,N],在冗余信息区域中寻找最佳匹配块;
经过正向帧间修复过程后进行逆向修复,即使用当前帧图像之后的N幅图像中选取可用信息,即f(x,y,t+i),i∈[1,N],与正向帧间修复过程类似,确定N幅图像中是否存在冗余信息区域,并计算R(x,y,t)-R(x,y,t+i),i∈[1,N],在冗余信息区域中寻找最佳匹配块;
10.4当执行块搜索匹配过程时,即为待修复的目标块Ψp寻找最为匹配的块Ψq,匹配准则如下:
Figure BDA0002814928290000071
其中d(Ψp,Ψq)表示的是相似度函数,等于目标块Ψp和匹配块Ψq中对应的已知像素之间做差得到的平方和,如下:
d(Ψp,Ψq)=Σ[(Ir-I′r)2+(Ib-I′b)2+(Ig-I′g)2]
其中Ir和I′r分别对应了目标块Ψp和匹配块Ψq中对应的已知像素点,下标{r,g,b}表示其RGB三个通道上的色彩分量。
有益效果:
1.本发明的各个部分包括了,单目深度信息提取,深度图上采样优化,无相机内参的虚拟视点合成,结合时域的基于块匹配的图像修复。在输入单目2D视频后,到双目3D视频转制完成的过程之间,所有的过程及处理全部由计算机程序自动化地完成而无人工参与。本发明2D-3D视频转制速度较快,对于1080P分辨率的源视频,转制的均摊速度可达到10~20fps。当输入单目2D视频为1080P分辨率的高清单目2D视频,输出即为1080P分辨率的高清双目3D视频,其具有左右两路视频,可在任意3D视频播放设备上进行播放。
2.对于1920*1080的源画面RGB图像Im,首先在512*288的较低的分辨率下,利用本发明的深度估计网络模型,快速从Im中提取出深度信息Dm(低分辨率的深度图),且上采样优化为原尺寸1920*1080的高分辨率高质量的深度图D′m。随后,基于Im和D′m进行本发明的无相机内参虚拟视点合成方法,得到带有空洞的左右虚拟视点Il和Ir,其分辨率均为1920*1080。最后利用本发明的结合时域的基于块匹配的图像修复方法,分别对Il和Ir进行空洞填充和图像修复,由于采用了结合时域的策略,其空洞修复不仅在单帧上纹理清晰合理、无伪影,而且在连续帧上效果稳定、无抖动,并且修复速度更快。
3.本发明直接对已经存在的普通的2D视频进行3D转制而得到3D视频,既无需昂贵的专业的3D摄影设备,也无需知道2D视频的拍摄设备的相机参数;本发明在单目2D视频到3D视频的转制过程中,无需人工参与,均由计算机程序自动完成;本发明对于高分辨率的视频的转制性能优越,深度信息提取的由低到高以及结合时域的图像修复方法,比现有技术速度更快,效果更好;本发明对于各种不同画面内容不同分辨率视频的转制均效果优秀,适用范围广泛。
附图说明
图1为本发明的整体流程图。
图2为本发明的深度图信息提取网络的模型细节图。
图3为本发明的深度图优化网络的模型细节图。
具体实施方式
下面结合附图对本发明进行详细阐述,具体步骤如下。
实施例1:
步骤1:从3D电影的左右两路视频中提取左右帧画面,将其分辨率缩放到512*288。然后,计算图像的纹理色彩复杂度C和亮度指标L,对于
Figure BDA0002814928290000081
和Y处于
Figure BDA0002814928290000082
的图像对,其纹理和色彩信息丰富且亮度合适,予以保留并整理。
Figure BDA0002814928290000083
Figure BDA0002814928290000084
分别为平均的纹理复杂度和亮度,其取决于所有提取的图像对的纹理复杂度和亮度的均值。h和w为图像尺寸,
Figure BDA0002814928290000085
为像素点在(i,j)坐标R通道的色彩分量,亮度Y即计算YUV色彩空间下的亮度通道分量,计算规则如下:
Figure BDA0002814928290000086
Figure BDA0002814928290000087
Y=0.299R+0.587G+0.114B
采用SGBM算法对图像对进行双目立体匹配,SGBM算法作为全局的立体匹配算法,可从左右视点图像中计算出其视差图,将视差值根据视差与深度的反比例关系,转换为相对性深度值,并将深度值归一化至区间(0,10]。将原RGB图像与其深度图一一对应整理为数据集,称之为RGBD数据集,共约8×105对图像;
步骤2:构建基于Inception模块的Encoder-Decoder形式的U型结构的卷积神经网络,称为深度估计网络。网络在整体上分为两个阶段:网络整体上先进行四个阶段的下采样再进行四个阶段的上采样。
前阶段对输入的RGB图像进行四次下采样并提升通道维度数,每一个下采样层由两个Inception模块和一个全局平均池化层AvgPool组成。每个Inception模块包含了4个并联整合输出的卷积层,分别为采用1×1、3×3、5×5、7×7卷积核,每个卷积层后使用了BatchNormalization批归一化和ReLu非线性激活单元。而AvgPool的池化核为2×2,即每经过一个下采样层,特征图的长宽均变为输入时的1/2。
后阶段对特征图进行四次上采样并降低通道维度数至1(输出网络输出单通道的超像素图像,即为深度图)。每个上采样层由两个Inception模块和一个双线性上采样层BiLinearUpsampling构成,上采样缩放因子为2,即每次特征图长宽扩大至输入的2倍。在前、后阶段的对应上、下采样层之间,采用一个Inpcetion卷积模块进行了跳路连接。
设计深度无关和尺度不变性的损失函数
Figure BDA0002814928290000091
损失函数
Figure BDA0002814928290000092
由四部分构成:深度值约束项、高频保有项、低频平滑项以及语义区域增强项。系数超参数α1、α2、α3、α4在训练的过程中,其值分别取0.001、1.0、0.5以及0.002。
Figure BDA0002814928290000093
表示如下:
Figure BDA0002814928290000094
其中
Figure BDA0002814928290000095
为对深度图中深度值的主要约束,在网络训练过程中。我们采用了在log域上计算深度值误差的方式,使其具有深度值的相对不变性。I为深度图,p为深度图上的一个像素点,N为该深度图中像素点的数量(518*288),
Figure BDA0002814928290000096
为网络输出的深度图中的p点的深度值,Dgt(p)为数据集里真实的深度值Ground-Truth,则
Figure BDA0002814928290000097
的构成如下:
Figure BDA0002814928290000098
Figure BDA0002814928290000099
其中
Figure BDA00028149282900000910
为对深度图在不同语义区域之间的高频信息的尺度不变性的约束。对深度图在4个缩放尺度上(1/2,1/4,1/8以及原尺寸)上计算了其x方向和y方向的图像梯度误差。令Is为特定尺度s下的深度图,p为其中的一个像素点,Ns为在特定尺度下图像的像素数量,Rs(p)即为在s尺度下计算的R(p),
Figure BDA00028149282900000911
Figure BDA00028149282900000912
分别为x和y方向的梯度计算,则
Figure BDA00028149282900000913
的构成表示如下
Figure BDA00028149282900000914
其中
Figure BDA00028149282900000915
Figure BDA00028149282900000916
为对深度图在整体区域上的低频信息和平滑性的约束。
Figure BDA00028149282900000917
Figure BDA00028149282900000918
分别为对网络输出深度图进行一阶和二阶的梯度计算,称之为平滑误差。令I为深度图,p为深度图上的一个像素点,Ns为该特定尺度下深度图中的像素数量,
Figure BDA00028149282900000919
代表对深度图进行梯度误差计算其同时包含了x方向与y方向,Is(p)表示2D视频画面中RGB图像的像素点的像素值,
Figure BDA00028149282900000920
网络输出深度图中像素点的深度值,则一阶平滑误差
Figure BDA0002814928290000101
和二阶平滑误差
Figure BDA0002814928290000102
的构成分别如下,在
Figure BDA0002814928290000103
中它们共享系数超参数α3
Figure BDA0002814928290000104
Figure BDA0002814928290000105
其中
Figure BDA0002814928290000106
为对深度图在特定语义区域之内的深度值的约束。利用MSCOCO上训练的Mask-RCNN卷积网络算法对2D视频帧进行图像分割,对其中各显著性区域进行标记和生成掩膜图mask,结合深度图对其特定区域进行深度值的L1误差计算。令T为该帧画面中经图像分割后的特定语义区域的数量,Mk为特定语义区域的二值掩膜区域mask,即每帧画面有T个掩膜区域,k为掩膜图的序号(从0到T-1),Mk即表示序号为k的掩膜区域,N表示该掩膜区域内的像素总数,*为二值掩膜图与网络输出深度图的逐像素之间的与运算,则
Figure BDA0002814928290000107
的构成表示如下:*为二值掩膜图与网络输出深度图的逐像素之间的与运算,则
Figure BDA0002814928290000108
的构成表示如下:
Figure BDA0002814928290000109
基于上述构建网络及设计损失函数,在步骤1中的RGBD数据集上,用上述损失函数对深度估计网络模型进行训练,直至模型收敛。
步骤3:从游戏引擎的3D场景模型数据集中采集高精度的深度图,将逼真于现实场景的RGB图像及其精确深度图进行保留并整理,对保留的精确深度图进行扭曲、添噪、模糊化处理随后进行缩放至512*288分辨率,而RGB图像及高分辨率深度图缩放至2048*1152分辨率。添噪及模糊化处理采用3*3窗口的高斯滤波进行,基于二维高斯函数,其中x、y为窗口中的像素坐标,σ为窗口内所有像素值的标准差:
Figure BDA00028149282900001010
将RGB图像、精确深度图及其处理后的粗糙深度图一一对应,组织整理后得到深度图FineCoarseDepth数据集;
步骤4:构建基于跨步卷积的深度图优化网络,网络在整体上分为两个阶段:前阶段对输入的RGB图像进行两次下采样并提升通道维度数,并在网络底部与粗糙深度图叠加;后阶段进行两次上采样并降低通道维度数至1(输出即优化后的高分辨率的深度图);前后阶段之间的对应的下、上采样层之间采用普通的卷积层进行短路跳接。每个下采样层由普通3×3卷积层和步长为2的跨步卷积层构成,每经过一个下采样层特征图边长缩小为输入的1/2;每个上采样层由普通3×3卷积层和放大因子为2的最近邻上采样层NearestUpSampling构成,每经过一个上采样层,特征图边长放大为2倍。
设计基于L1误差的损失函数,由两部分构成:基于L1的深度值约束项、低频平滑项,利用FineDepth作为CoarseDepth的Ground-Truth的监督信息。网络的结构及模块细节如附图2所示,在网络底部输入低分辨率的深度图CoarseDepth,而在网络顶部输入的2D视频帧的RGB图像经过卷积层下采样,与其叠加进行引导,一同经过最近邻上采样层,网络输出上采样后的高分辨率的深度图。损失函数的构成表示如下:
Figure BDA0002814928290000111
其中
Figure BDA0002814928290000112
为对深度值的直接约束,促使网络输出的高分辨率深度图中的深度值
Figure BDA0002814928290000113
与输入的监督信息(即低分辨率深度图中的深度值Dgt(i,j))趋近。
Figure BDA0002814928290000114
为多尺度的平滑性约束,对网络输出的深度图在多尺度上(1,1/2,1/4,1/8及1/16)进行的梯度计算,促使输出的深度图在整体上平滑且细腻。β1、β2分别为
Figure BDA0002814928290000115
Figure BDA0002814928290000116
的系数超参数,在网络的训练过程中其值分别取0.001和0.01。
Figure BDA0002814928290000117
Figure BDA0002814928290000118
的构成表示如下:
Figure BDA0002814928290000119
Figure BDA00028149282900001110
其中深度图的梯度计算Gh[ξ],对其在不同尺度下的计算规则进行统一,表示如下:
Figure BDA00028149282900001111
在步骤3中的FineCoarseDepth数据集上,用上述损失函数对深度图优化网络模型进行训练直至收敛;
步骤5:将单目2D视频进行分帧,若图像的整体亮度较高,则直接将图像数据输入深度估计网络,若图像的整体亮度较低,则先进行gamma校正亮度增强处理,gamma值为1/2.2,再将图像数据输入深度估计网络。分帧后RGB图像的分辨率为1920*1080,则将其缩放到512*288,并将0~255的整型值域归一化到0~1.0的浮点型值域,然后将数据输入到深度估计网络中,网络输出得到低分辨率低质量的粗糙的深度图,其分辨率为512*288;
步骤6:将步骤5中低分辨率深度图数据,在步骤4中的深度优化网络的底部输入,而在网络的顶部输入低分辨率深度图所对应的高分辨率RGB图像数据,RGB图像被放缩到4×4的低分辨率深度图的大小,即分辨率为2048*1152。
高分辨率RGB图像经过两个下采样层后,特征图尺寸变为512*288通道数为C,此时同尺寸的低分辨率深度图经过普通卷积层提升其通道数为C而尺寸不变,将二者在通道尺度上进行叠加,随后一起输入第一个上采样层。
高分辨率RGB图像介入了对低分辨率深度图的上采样,起到了引导的作用。网络最终输出上采样后的高分辨率的高质量的深度图,将其缩小到1920*1080分辨率,并归一化至整型的0~255值域上,将用于后续的虚拟视点合成;
步骤7:将原单目2D视频帧的高分辨率RGB图像看作中间视点,结合其对应的高分辨率深度图提供的深度信息,对中间视点的每个像素进行反变换,从图像平面到基于相机坐标系的Z-Buffer空间,得到中间视点的所有像素点在Z-Buffer空间中对应的坐标集合,它们除了RGB三个通道的色彩分量值还包含一个理论上的距离中间视点平面的深度值。该深度值d由步骤6中得到的高分辨率深度图中相应像素点的深度值Z所确定,其中Zmax和Zmin分别为同一帧深度图中,最大的深度值和最小的深度值:
Figure BDA0002814928290000121
在虚拟视点合成与渲染绘制过程中,无需相机参数等信息。视频中的所有物体都显示在显示器平面上,左右眼中看到的虚像位置是相同的,不存在视差,无效果。显示器是通过左右眼视差来达到显示效果的,显示器平面被视为零视差平面,只有在左右眼中成像位置相同的物体才会显示在该平面上。设定观看者的左眼位置为(-e,0),右眼位置为(e,0)。显示器平面在(0,D)水平面处。Tr是观察者右眼虚像在显示平面上的位置,Tl是观察者左眼虚像在显示器上的位置,对于图像中的物体P(像素点P),当其深度值为d,由双目成像系统原理得到其关系:
Figure BDA0002814928290000122
Figure BDA0002814928290000123
而Wscreen本质上为抽象化的参数,定义为显示平面的像素尺寸,其为屏幕边长与屏幕分辨率的像素数之间的比值,Wscreen取值设置为3.0,减小Wscreen即增加了合成的虚拟左右视点之间的双目视差,反之亦然。将中间视点的像素点在标记为Z-Buffer空间中带有上述深度值的像素坐标p(x,y,d),并按照d的大小,由大到小地投影到左虚拟视点平面和右虚拟视点平面。
步骤8:将Z-Buffer空间中的像素坐标,以6.5cm/2的人眼双目基线距离(经验值,大部分人类的双眼瞳孔距离在6~7cm之间),在尺度无关性的深度信息及无相机内参的情况下,将其进行从Z-Buffer空间到虚拟左视点平面的投影变换。在对左虚拟视点进行渲染合成的过程中,Z-Buffer空间中深度值较大的像素点集合将优先于深度值较小的点被投影和渲染。将所有像素完成渲染后即得到虚拟左视点。
将Z-Buffer空间中的,按深度值d由大到小,先后投影到左、右虚拟视点平面时,中间视点Im(w,h,Rm,Gm,Bm)与左右虚拟视点Il(w,h,Rl,Gl,Bl)和Ir(w,h,Rr,Gr,Br)存在的映射关系如下,其中w和h表示图像中的像素横纵坐标,R、G、B表示该坐标像素点上的色彩分量,表示Z-Buffer空间中坐标(w,h,d)点的深度值d:
Figure BDA0002814928290000131
Figure BDA0002814928290000132
步骤9:执行与步骤8中形式对称、方向相反的投影变换和视点渲染过程,即从中间视点渲染得到虚拟右视点。
步骤10:对虚拟视点中的空洞采用结合时域的块匹配图像修复算法,在当前帧的前后数帧的相同区域执行局部块匹配搜索,计算信息冗余度及块相似度函数,若不满足修复填充条件,则在本帧画面中执行全局块匹配搜索,对虚拟视点进行图像修复。此过程将反复迭代执行,直至所有空洞区域被填充完毕。
结合时域的块匹配图像修复算法,具体过程如下:对合成得到的左右虚拟视点,将其中的空洞区域标记,对不同区域计算优先权,结合时域上前后帧同搜索块的纹理信息对其进行检验与修复,然后在本帧画面中继续搜索最佳匹配块,利用最佳匹配块对空洞区域进行修复。若空洞未修复完全,则重复前过程,直至图像中空洞修复完毕。具体地,步骤10结合时域的块匹配图像修复算法,按照如下方法和规则进行:
10.1定义优先权计算:
Figure BDA0002814928290000133
Figure BDA0002814928290000134
time表示修复的次数,N是一个固定常数取值100,|Ψp|表示目标块Ψp的面积,
Figure BDA0002814928290000135
表示p点的等照度线向量,np表示了待修补区域的边界的单位外法向量,α表示归一化因子取值255。
10.2利用时域的帧间信息首先确定帧间的信息相关性,用f(x,y)表示当前帧图像,g(x,y)表示选取的某一帧参考图像,分别用Rf(x,y)和Rg(x,y)表示。将两幅图像均划分成多个子块,然后为当前帧图像中的每一个子块Hf寻找参考图像中相匹配的块Hg。计算子块Hf与子块Hg中心点间的位移矢量。计算其平均值为E,若E<T,则认为参考图像中存在可用信息,此时冗余信息区域为Rf(x,y)-Rg(x,y)。若E>T,则认为此时场景发生切换,参考图像中不包含可用信息,选择下一帧继续比较。
10.3在使用帧间信息对当前帧图像进行修复时,为方便计算,采用正向和逆向两种顺序进行修复。当正向修复时,在当前帧图像f(x,y,t)之前的N幅图像中选取可用信息,即f(x,y,t-i),i∈[1,N]。确定N幅图像中是否存在冗余信息区域,并计算R(x,y,t)-R(x,y,t-i),i∈[1,N],在冗余信息区域中寻找最佳匹配块。
经过正向帧间修复过程后进行逆向修复,即使用当前帧图像之后的N幅图像中选取可用信息,即f(x,y,t+i),i∈[1,N],与正向帧间修复过程类似,确定N幅图像中是否存在冗余信息区域,并计算R(x,y,t)-R(x,y,t+i),i∈[1,N],在冗余信息区域中寻找最佳匹配块。
10.4当执行块搜索匹配过程时,即为待修复的目标块Ψp寻找最为匹配的块Ψq,匹配准则如下:
Figure BDA0002814928290000141
其中d(Ψp,Ψq)表示的是相似度函数,等于目标块Ψp和匹配块Ψq中对应的已知像素之间做差得到的平方和,如下:
d(Ψp,Ψq)=∑[(Ir-I′r)2+(Ib-I′b)2+(Ig-I′g)2]
其中Ir和I′r分别对应了目标块Ψp和匹配块Ψq中对应的已知像素点,下标{r,g,b}表示其RGB三个通道上的色彩分量。
10.5根据上述规则,执行如下过程:
1)确定空洞区域Ω:整幅图像为I,已知区域(即非空洞区域)为Φ,则空洞区域Ω=I-Φ:
2)确定计算优先权的块的大小,设定为9×9,并计算优先权,优先进行已知纹理信息和结构信息较多的块的修复;
3)自适应传播纹理信息和结构信息,找到优先值最大的模板的中心点p∈Ω,然后在其适当大小的邻域内自适应寻找最佳匹配块Ψq∈Φ,使得d(Ψp,Ψq)的值最小,然后用Ψq中的点的色值对应替代Ψp中的点。
4)在Ψq填充完新的像素后,对优先权函数进行更新:具有最高优先权的块已经被填充,那么被填充的像素点就由目标区域变为已知区域。
5)置信度更新了之后,一个填充过程就完成了。这时,待修复区域的边缘发生了改变,这时就得到了一个新的待修复边缘。重复上述2-4过程,直至整个缺损区域修复完毕。
步骤11:将空洞修复后的左右虚拟视点进行同帧合并,得到双目视图,将连续帧的双目视图进行视频合成与压缩,得到双目3D视频。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代均属于本发明的保护范围。

Claims (4)

1.一种高分辨率单目2D视频到双目3D视频的转制方法,其特征在于:所述方法包括以下步骤:
步骤1:从现有的3D电影中提取左右帧,采用SGBM算法从中提取和构建RGBD数据集;
步骤2:构建设计U型结构的卷积神经网络及特定的损失函数,在RGBD数据集上对深度估计网络进行训练至收敛;
步骤3:从游戏引擎3D场景模型采集高精度深度图,经过预处理得到粗糙化的深度图FineCoarseDepth数据集,所述预处理包括扭曲、模糊化处理;
步骤4:构建设计U型结构的深度图优化网络及特定的损失函数,在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛;
步骤5:将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络,输出得到低分辨率的深度图;
步骤6:将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络,输出得到高分辨率高质量的深度图;
步骤7:进行无相机参数的虚拟视点合成,将中间视点的像素点反坐标变换到Z-Buffer空间,然后进行从Z-Buffer空间到虚拟左视点的投影变换,得到虚拟左视点;再执行从Z-Buffer空间到虚拟右视点的投影变换,得到虚拟右视点;
步骤8:采用结合时域的块匹配图像修复算法,对虚拟左视点和虚拟右视点进行空洞填充和修复;
步骤9:将修复后的虚拟左视点和虚拟右视点进行同帧合并,连续帧的双目视图经过视频合成与压缩,得到双目3D视频;
步骤2中所述构建设计U型结构的卷积神经网络,是指构建Encoder-Decoder式的U型结构的卷积神经网络,步骤2中所述构建设计特定的损失函数,在RGBD数据集上对深度估计网络进行训练至收敛,是指设计与图像分割结果相结合的损失函数进行训练,利用训练收敛的模型,从分辨率为1920*1080的高分辨率的2D视频帧画面中先提取出分辨率为512*288的低分辨率的深度图;
损失函数
Figure FDA0003636405650000011
的设计如下所示:
Figure FDA0003636405650000012
其中:
Figure FDA0003636405650000013
为对深度图中深度值的主要约束;
Figure FDA0003636405650000014
为对深度图在不同语义区域之间的高频信息的尺度不变性的约束;
Figure FDA0003636405650000015
Figure FDA0003636405650000016
为对深度图在整体区域上的低频信息和平滑性的约束,称
Figure FDA0003636405650000021
为一阶平滑误差,
Figure FDA0003636405650000022
为二阶平滑误差;
Figure FDA0003636405650000023
为对图像中特定的语义区域内深度值约束,α1、α2、α4、α4分别为上述四个损失项约束的系数超参数;
步骤5中所述将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络,输出得到低分辨率的深度图的具体方法是:
在网络训练过程中,促使网络的输出深度值与训练集中的Ground-Truth在数据的绝对值上趋于一致,采用在log域上计算深度值误差的方式,使其具有深度值的相对不变性;引入高频信息的约束项,促使深度图的高频变化与RGB原图一致;采用深度图的平滑性误差,促使深度值在整体上趋于平滑和稳定;引入图像分割的结果计算特定语义区域内的深度值误差,促使每个物体区域内深度值的准确性;
其中
Figure FDA0003636405650000024
为对深度图中深度值的主要约束,令I为深度图,p为深度图上的一个像素点,N为该深度图中像素点的数量(518*288),
Figure FDA0003636405650000025
为网络输出的深度图中的p点的深度值,Dgt(p)为数据集里真实的深度值Ground-Truth,R(p)定义为在log域上的
Figure FDA0003636405650000026
与Dgt(p)之间的差值,则对深度图中深度值的主要约束
Figure FDA0003636405650000027
的构成如下:
Figure FDA0003636405650000028
Figure FDA0003636405650000029
其中
Figure FDA00036364056500000210
为对深度图在不同语义区域之间的高频信息的尺度不变性的约束,在网络训练过程中,促使网络的输出深度值在不同物体或其他语义区域之间呈现明显的差异,加强深度图的深度层次关系以及高频信息,对深度图在多个缩放尺度上计算其x方向和y方向的图像梯度误差;
令Is为特定尺度s下的深度图,p为其中的一个像素点,Ns为在特定尺度下图像的像素数量,Rs(p)即为在s尺度下计算的R(p),
Figure FDA00036364056500000211
Figure FDA00036364056500000212
分别为x和y方向的梯度计算,则
Figure FDA00036364056500000213
的构成表示如下:
Figure FDA00036364056500000214
令Is为特定尺度s下的深度图,p为深度图上的一个像素点,Ns为该特定尺度下深度图中的像素数量,
Figure FDA00036364056500000215
代表对深度图进行梯度误差计算其同时包含了x方向与y方向,为两个方向的梯度值之和,Is(p)表示p在深度图与2D视频画面对应的RGB图像的像素值,
Figure FDA00036364056500000216
网络输出深度图中像素点的深度值,则一阶平滑误差
Figure FDA0003636405650000031
和二阶平滑误差
Figure FDA0003636405650000032
的构成分别如下,在
Figure FDA0003636405650000033
中它们共享系数超参数α3
Figure FDA0003636405650000034
Figure FDA0003636405650000035
其中
Figure FDA0003636405650000036
为对深度图在特定语义区域之内的深度值的约束,在网络训练过程中,促使网络的输出深度值在特定的语义区域之内保有准确性和一致性,特定语义区域包含人体、动物、车辆和建筑物的语义目标;
利用MSCOCO上训练的Mask-RCNN卷积网络算法对2D视频帧进行图像分割,对其中各显著性区域进行标记和生成掩膜图mask,结合深度图对其特定区域进行深度值的L1误差计算:
令T为该帧画面中经图像分割后的特定语义区域的数量,Mk为特定语义区域的二值掩膜区域mask,每帧画面有T个掩膜区域,k为掩膜图的序号(从0到T-1),Mk即表示序号为k的掩膜区域,N表示该掩膜区域内的像素总数,*为二值掩膜图与网络输出深度图的逐像素之间的与运算,则
Figure FDA0003636405650000037
的构成表示如下:
Figure FDA0003636405650000038
步骤4中所述构建设计U型结构的深度图优化网络及特定的损失函数,在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛,具体方法是:
构建用于深度图优化的卷积神经网络,设计基于L1误差的损失函数,利用FineDepth作为CoarseDepth的Ground-Truth的监督信息,对网络进行训练和调参,得到收敛后的模型,在网络底部输入低分辨率的深度图CoarseDepth,而在网络顶部输入的2D视频帧的RGB图像经过卷积层下采样,与其叠加进行引导,一同经过上采样层,网络输出上采样后的高分辨率的深度图,损失函数的构成表示如下:
Figure FDA0003636405650000039
其中
Figure FDA00036364056500000310
为对深度值的直接约束,促使网络输出的高分辨率深度图中的深度值
Figure FDA00036364056500000311
与输入的监督信息,即低分辨率深度图中的深度值Dgt(i,j))趋近,
Figure FDA00036364056500000312
为多尺度的平滑性约束;β1、β2分别为
Figure FDA0003636405650000041
Figure FDA0003636405650000042
的系数超参数;
步骤6中所述将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络,输出得到高分辨率高质量的深度图的具体方法是:
对网络输出的深度图在多尺度上进行的梯度计算,促使输出的深度图在整体上平滑且细腻,
Figure FDA0003636405650000043
Figure FDA0003636405650000044
的构成表示如下:
Figure FDA0003636405650000045
Figure FDA0003636405650000046
其中i和j表示深度图中坐标(i,j)的像素点,
Figure FDA0003636405650000047
表示网络输出的深度图中该像素点处的深度值,Dgt(i,j)表示Ground-Truth监督信息的深度图中该像素点处的深度值,其中深度图的梯度计算Gh[ξ],对其在不同尺度下的计算规则进行统一,表示如下:
Figure FDA0003636405650000048
其中h为尺度因子,分别表示跨越{1,2,4,8,16}个像素进行梯度计算,D(i,j)表示深度图中的像素值,其既是网络输出的深度图,也是Ground-Truth监督信息的深度图。
2.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法,其特征在于:步骤1中所述从现有的3D电影中提取左右帧的过程中,需要先对现有的3D电影进行双目立体匹配。
3.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法,其特征在于:步骤7的具体方法是:设定观看者的左眼位置为(-e,0),右眼位置为(e,0),显示器平面在(0,D)水平面处,Tr是观察者右眼虚像在显示平面上的位置,Tl是观察者左眼虚像在显示器上的位置,对于图像中的像素点P,当其深度值为d,由双目成像系统原理得到其关系:
Figure FDA0003636405650000049
Figure FDA00036364056500000410
其中Dispixel为左右视点之间的视差,e为双眼基线距离的半值,D为人眼与显示屏幕的之间的距离,d为深度图中该像素点的深度值,Wscreen为显示器的像素尺寸,其取决于显示平面的尺寸与分辨率,单位为毫米/像素;
此时,将像素点与其深度信息结合于Z-Buffer空间中,然后分别向左、向右合成左、右虚拟视点,双眼虚像像素位移关系表示如下:
Figure FDA0003636405650000051
Figure FDA0003636405650000052
其中Rm表示中间视点,即原视频帧的RGB图像;而Rl和Rr分别表示虚拟左、右视点;R、G、B之间形式是一致的,分别表示RGB图像的三个色彩通道;w、h表示像素点在图像中的横、纵坐标。
4.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法,其特征在于:步骤8中所述采用结合时域的块匹配图像修复算法,对虚拟左视点和虚拟右视点进行空洞填充和修复的具体过程如下:对合成得到的虚拟左视点和虚拟右视点,将其中的空洞区域标记,对不同区域计算优先权,结合时域上前后帧同搜索块的纹理信息对其进行检验与修复,然后在本帧画面中继续搜索最佳匹配块,利用最佳匹配块对空洞区域进行修复,若空洞未修复完全,则重复前过程,直至图像中空洞修复完毕;
所述结合时域的块匹配图像修复算法,具体方法为:
10.1定义优先权计算:
Figure FDA0003636405650000053
Figure FDA0003636405650000054
首先令空洞区域为Ω,整幅图像为Ι,已知区域(即非空洞区域)为Φ,即满足关系空洞区域Ω=I–Φ,在上述优先权计算中,其中P(p)表示优先权,C(p)为置信度项,D(p)为数据项,C(q)为计算像素点q的置信度,当q位于目标区域则为0,当位于已知区域则为1;time表示修复的次数,N是一个固定常数取值100,|Ψp|表示目标块Ψp的面积,
Figure FDA0003636405650000055
表示p点的等照度线向量,np表示了待修补区域的边界的单位外法向量,α表示归一化因子取值255;
10.2利用时域的帧间信息首先确定帧间的信息相关性,若f(x,y)为当前帧图像,g(x,y)为选取的某一帧参考图像,则分别用Rf(x,y)和Rg(x,y)表示两幅图像,将两幅图像均划分成多个子块,然后为当前帧图像中的每一个子块Hf寻找参考图像中相匹配的块Hg,计算子块Hf与子块Hg中心点间的位移矢量,计算其平均值为E,若E<T,则认为参考图像中存在可用信息,此时冗余信息区域为Rf(x,y)-Rg(x,y),若E>T,则认为此时场景发生切换,参考图像中不包含可用信息,选择下一帧继续比较,T为阈值;
10.3在使用帧间信息对当前帧图像进行修复时,为方便计算,采用正向和逆向两种顺序进行修复,当正向修复时,在当前帧图像f(x,y,t)之前的N幅图像中选取可用信息,即f(x,y,t-i),i∈[1,N],确定N幅图像中是否存在冗余信息区域,并计算R(x,y,t)-R(x,y,t-i),i∈[1,N],在冗余信息区域中寻找最佳匹配块;
经过正向帧间修复过程后进行逆向修复,即使用当前帧图像之后的N幅图像中选取可用信息,即f(x,y,t+i),i∈[1,N],与正向帧间修复过程类似,确定N幅图像中是否存在冗余信息区域,并计算R(x,y,t)-R(x,y,t+i),i∈[1,N],在冗余信息区域中寻找最佳匹配块;
10.4当执行块搜索匹配过程时,即为待修复的目标块Ψp寻找最为匹配的块Ψq,匹配准则如下:
Figure FDA0003636405650000061
其中d(Ψpq)表示的是相似度函数,等于目标块Ψp和匹配块Ψq中对应的已知像素之间做差得到的平方和,如下:
Figure FDA0003636405650000062
其中Ir和I′r分别对应了目标块Ψp和匹配块Ψq中对应的已知像素点,下标{r,g,b}表示其RGB三个通道上的色彩分量。
CN202011395559.0A 2020-12-03 2020-12-03 高分辨率单目2d视频到双目3d视频的转制方法 Active CN112543317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011395559.0A CN112543317B (zh) 2020-12-03 2020-12-03 高分辨率单目2d视频到双目3d视频的转制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011395559.0A CN112543317B (zh) 2020-12-03 2020-12-03 高分辨率单目2d视频到双目3d视频的转制方法

Publications (2)

Publication Number Publication Date
CN112543317A CN112543317A (zh) 2021-03-23
CN112543317B true CN112543317B (zh) 2022-07-12

Family

ID=75015659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011395559.0A Active CN112543317B (zh) 2020-12-03 2020-12-03 高分辨率单目2d视频到双目3d视频的转制方法

Country Status (1)

Country Link
CN (1) CN112543317B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012272A (zh) * 2021-03-31 2021-06-22 北京奇艺世纪科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN113542723A (zh) * 2021-06-01 2021-10-22 泰州汇锦电子有限公司 嵌入式自由立体显示器
CN113240050B (zh) * 2021-06-08 2024-05-03 南京师范大学 一种特征融合权重可调的金属打印熔池检测方法
CN113706597A (zh) * 2021-08-30 2021-11-26 广州虎牙科技有限公司 视频帧图像处理方法及电子设备
CN114035871A (zh) * 2021-10-28 2022-02-11 深圳市优聚显示技术有限公司 基于人工智能的3d显示屏的显示方法、系统及计算机设备
CN114051128B (zh) * 2021-11-11 2023-09-05 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置、设备及介质
CN114786037B (zh) * 2022-03-17 2024-04-12 青岛虚拟现实研究院有限公司 一种面向vr投影的自适应编码压缩方法
CN114972129B (zh) * 2022-08-01 2022-11-08 电子科技大学 一种基于深度信息的图像修复方法
CN115861145B (zh) * 2023-02-06 2023-05-09 北京机械工业自动化研究所有限公司 一种基于机器视觉的图像处理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377530B (zh) * 2018-11-30 2021-07-27 天津大学 一种基于深度神经网络的双目深度估计方法
CN109978786B (zh) * 2019-03-22 2020-09-25 北京工业大学 一种基于卷积神经网络的Kinect深度图修复方法
CN110490919B (zh) * 2019-07-05 2023-04-18 天津大学 一种基于深度神经网络的单目视觉的深度估计方法
CN111652922B (zh) * 2020-06-04 2023-09-08 江苏天宏机械工业有限公司 一种基于双目视觉的单目视频深度估计方法

Also Published As

Publication number Publication date
CN112543317A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN112543317B (zh) 高分辨率单目2d视频到双目3d视频的转制方法
Cao et al. Semi-automatic 2D-to-3D conversion using disparity propagation
Solh et al. Hierarchical hole-filling for depth-based view synthesis in FTV and 3D video
WO2018119808A1 (zh) 一种基于3d卷积神经网络的立体视频生成方法
CN109462747B (zh) 基于生成对抗网络的dibr系统空洞填充方法
US10834379B2 (en) 2D-to-3D video frame conversion
US11880935B2 (en) Multi-view neural human rendering
CN111047709B (zh) 一种双目视觉裸眼3d图像生成方法
CN112019828B (zh) 一种视频的2d到3d的转换方法
CN107240147B (zh) 图像渲染方法及系统
CN110113593A (zh) 基于卷积神经网络的宽基线多视点视频合成方法
US20230071559A1 (en) Neural opacity point cloud
Li et al. A real-time high-quality complete system for depth image-based rendering on FPGA
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
Xi et al. Depth-image-based rendering with spatial and temporal texture synthesis for 3DTV
CN116563459A (zh) 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法
CN116385305A (zh) 基于跨区域Transformer的神经辐射场的图像去阴影方法及系统
CN112634127B (zh) 一种无监督立体图像重定向方法
CN111696034B (zh) 图像处理方法、装置及电子设备
CN115170921A (zh) 一种基于双边网格学习和边缘损失的双目立体匹配方法
CN109379577B (zh) 一种虚拟视点的视频生成方法、装置及设备
Zhang et al. SivsFormer: Parallax-aware transformers for single-image-based view synthesis
Liu et al. Stereoscopic view synthesis based on region-wise rendering and sparse representation
Jin et al. Jointly Texture Enhanced and Stereo Captured Network for Stereo Image Super-Resolution
CN116546183B (zh) 基于单帧图像的具有视差效果的动态图像生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant